Buy Me a Coffee

Microsoft GraphRAG: 結合知識圖譜來改進數據檢索超越傳統RAG系統


GitHub:Microsoft GraphRAG

大家好!今天我要跟大家分享一個超酷的新技術——由微軟推出的GraphRAG。GraphRAG是什麼呢?簡單來說,它是一個結合知識圖譜與檢索增強生成(RAG)技術的創新系統,能夠大大提升我們在處理複雜信息檢索時的表現。讓我們一起來看看這個新技術是如何運作的吧!

傳統RAG的挑戰

首先,我們來了解一下傳統RAG的工作原理和它的幾個主要挑戰。RAG方法通過語言模型從大型語料庫中檢索相關文檔,以生成更準確且具上下文關聯的回應。具體來說,傳統RAG包括三個步驟:

  1. 文檔處理:將文檔分成小塊並轉換成向量。
  2. 查詢處理:用戶提出問題後,將查詢轉換為向量,然後在向量庫中進行相似度搜索,檢索最相關的文檔塊。
  3. 生成回應:結合查詢和檢索到的上下文,使用大語言模型生成最終回應。

然而,這種方法存在三大限制:

  • 上下文理解有限:RAG僅依賴檢索到的文檔,可能無法捕捉數據中的細微差別。
  • 可擴展性問題:隨著語料庫增大,檢索過程變得低效。
  • 複雜度高:整合外部知識來源通常是複雜且繁瑣的。

GraphRAG的創新解決方案

GraphRAG通過使用LLM生成的知識圖譜來解決這些問題。以下是GraphRAG的兩個主要階段:

索引階段

graph TD;
    A[文檔處理] --> B[文本拆分];
    B --> C[實體與關係提取];
    C --> D[知識圖譜構建];
    D --> E[社區劃分與摘要];
  1. 文檔拆分:將原始文檔拆分為文本單元。
  2. 實體與關係提取:識別文本單元中的不同實體及其關係。
  3. 知識圖譜構建:基於實體和關係創建知識圖譜。
  4. 社區劃分與摘要:將實體劃分為不同社區,並對每個社區進行摘要。

查詢階段

graph TD;
    F[選擇社區層級] --> G[生成回應];
    G --> H[結合知識圖譜摘要];
    H --> I[生成最終回答];
  1. 選擇社區層級:根據需要的詳盡程度選擇信息層級。
  2. 生成回應:使用知識圖譜中的摘要來生成回應。

這種方法不僅提高了檢索效率,還能更好地理解數據的全局上下文。

應用實例

讓我們來看看GraphRAG在實際應用中的表現。以VIINA數據集為例,我們比較了傳統RAG與GraphRAG在回答關於「Novorossiya」問題上的表現:

問題一:「什麼是Novorossiya?」

傳統RAGGraphRAG
Novorossiya是指俄羅斯帝國於18世紀征服的烏克蘭南部地區,近期被親俄分裂分子復興。Novorossiya具有歷史和當代意義,現代背景下被親俄分裂分子用來指代烏克蘭的部分地區。

問題二:「Novorossiya做了什麼?」

傳統RAGGraphRAG
文本未提供具體信息。Novorossiya參與了一系列破壞活動,包括計劃破壞烏克蘭的多個實體。

可以看出,GraphRAG在處理需要綜合信息的問題上表現更佳,提供了詳細且相關的回答。

全數據集推理

傳統RAG在回答需要跨數據集匯總信息的問題時表現不佳。例如,對於「數據中的五大主題是什麼?」這類問題,傳統RAG難以定位正確的信息。而GraphRAG通過知識圖譜結構能夠有效回答這類問題。

問題三:「數據中的五大主題是什麼?」

傳統RAGGraphRAG
1. 改善城市生活質量
2. 普京與阿聯酋總統會晤
3. 俄羅斯投資環境國家評級
4. 俄羅斯經濟狀況
5. 生命意義的討論
1. 衝突與軍事活動:描述烏克蘭的軍事活動。
2. 政治與政府實體:關注政治人物及其行動。
3. 基礎設施與環境問題:描述工業活動的環境影響。
4. 社區分析與威脅評估:詳細分析特定社區。
5. 健康、人道主義問題與緊急情況:描述健康和人道主義問題。

可以看到,GraphRAG提供了更具體且相關的主題分析。

圖形化呈現與結果評估

GraphRAG通過結合LLM生成的知識圖譜與圖機器學習技術,顯著提升了RAG系統的性能。以下是GraphRAG生成的知識圖譜示例:

Image: LLM-generated knowledge graph

這個圖形展示了知識圖譜中不同實體之間的關係,每個圓圈代表一個實體,圓圈大小表示實體之間的關係數量,顏色表示相似實體的分組。

我們通過使用LLM評分器來評估GraphRAG的性能,結果顯示GraphRAG在全面性、人類參與性和多樣性等定性指標上顯著優於傳統RAG。

結論

GraphRAG通過結合LLM生成的知識圖譜與圖機器學習技術,顯著提升了RAG系統的性能,特別是在處理複雜信息檢索和全局數據集推理方面。隨著這項技術的進一步發展,我們期待能在更多領域看到其應用,從社交媒體到新聞文章,再到化學研究,GraphRAG將持續發揮其強大的潛力。

想了解更多GraphRAG的技術細節和應用場景,請參考微軟研究的完整報告。


如果你對本文內容有任何疑問或想了解更多相關資訊,歡迎在下方留言,我們將會及時回應。感謝你的閱讀!