AI

LLM Graph Builder:Neo4j 的 RAG 到圖譜管線

LLM Graph Builder 使用 LLM 將非結構化文件轉換為 Neo4j 知識圖譜,透過實體和關係提取實現 GraphRAG。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LLM Graph Builder:Neo4j 的 RAG 到圖譜管線

傳統檢索增強生成(RAG)的局限性隨著組織將 AI 系統部署到生產環境而變得越來越明顯。向量搜尋——傳統 RAG 的骨幹——在尋找語義相似的文件區塊方面做得不錯,但它從根本上缺乏結構理解。它無法表達「Apple 在 2014 年收購了 Beats」涉及兩個具有特定類型和日期的實體之間的關係。它無法跨多個文件追蹤關係鏈。它將知識庫視為向量的扁平集合,而非相互連結的事實網絡。

Neo4j 的 LLM Graph Builder 透過彌合大型語言模型和圖形資料庫之間的差距來解決這個限制。它是一個開源工具,使用 LLM 自動從非結構化文件中提取實體和關係,然後將結果的結構化資料填充到 Neo4j 知識圖譜中。輸出是一個結合了 LLM 語義理解和圖形資料庫結構精確性的 GraphRAG 管線。

工作流程表面上看起來優雅簡單:上傳文件、選擇 LLM、點擊按鈕,然後接收一個完整填充的知識圖譜。在幕後,LLM Graph Builder 編排了一個由文件解析、分塊、實體提取、關係映射、本體強制和圖譜填充組成的複雜管線——全部無需使用者編寫任何提取規則或圖形綱要。

管線架構

完整的文件到圖譜管線分為六個階段:

階段過程輸出
攝取從檔案、URL 或雲端儲存載入文件原始文字語料庫
分塊將文件分割為 LLM 上下文大小的區段帶元資料的文字區塊
提取LLM 識別實體和關係提取的三元組(主詞-謂詞-受詞)
驗證交叉比對提取結果,解決衝突經過驗證的實體圖譜
本體映射將實體映射到綱要節點和關係圖譜相容結構
填充將節點、邊和屬性寫入 Neo4j即時知識圖譜

GraphRAG 查詢流程

下圖顯示了 GraphRAG 如何透過利用知識圖譜來增強標準 RAG 管線:

查詢路由器是關鍵創新。簡單事實性問題轉向向量搜尋以獲得速度。需要關係遍歷的問題——「哪些產品是由 Google 在過去五年內收購的公司開發的?」——被路由到圖形查詢引擎。複雜問題則使用兩種來源,結合向量搜尋的廣泛覆蓋和圖形遍歷的結構精確性。

實體提取品質

實體提取的品質因 LLM 和文件類型而有顯著差異。下表顯示了常用模型的基準測試結果:

模型實體精確度關係準確度覆蓋率速度每 1000 份文件成本
GPT-4o94%89%92%$12.50
Claude 3.5 Sonnet96%91%93%$10.00
Claude 4 Sonnet97%93%95%非常快$10.00
Gemini 1.5 Pro91%85%88%中等$8.00
Llama 3 (本地)82%74%79%免費
Qwen 2.5 (本地)80%71%76%免費

企業使用者通常偏好 Claude 4 Sonnet,因為其最佳的實體精確度和關係準確度,而較小團隊或注重隱私的部署可能會選擇本地 Llama 模型,儘管提取品質較低。

開始使用

要開始從你的文件建立知識圖譜,請造訪 LLM Graph Builder GitHub 儲存庫。該儲存庫包含完整堆疊(LLM Graph Builder + Neo4j)的 Docker Compose 檔案、用於測試的範例文件,以及連接到不同 LLM 提供商的整合指南。

Neo4j GraphRAG 文件 提供建立 GraphRAG 應用程式的全面指南,包括查詢優化、綱要設計和效能調校。

常見問題

什麼是 LLM Graph Builder?

LLM Graph Builder 是 Neo4j Labs 的開源工具,使用大型語言模型自動將非結構化文件轉換為結構化知識圖譜。它從文字中提取實體和關係,並直接將其映射到 Neo4j 圖形資料庫中。

它與傳統 RAG 有何不同?

傳統 RAG 透過向量相似度檢索文件區塊,缺乏結構理解。由 LLM Graph Builder 支援的 GraphRAG 保留了實體關係和層級結構,實現了純向量搜尋無法準確支援的多跳推理查詢。

支援哪些文件格式?

LLM Graph Builder 支援 PDF、HTML、Markdown、JSON、CSV、XML 和純文字檔案。文件可以透過 UI 直接上傳,或從 URL、S3 儲存桶、Google Drive 和 SharePoint 攝取。該系統處理結構化和半結構化內容。

可以使用哪些 LLM 進行提取?

該工具支援 OpenAI(GPT-4o)、Anthropic(Claude 3/4)、Google(Gemini)以及透過 Ollama 的本地模型。LLM 的選擇會影響提取品質和成本,較強的模型通常能產生更準確的實體和關係識別。

什麼是 GraphRAG?

GraphRAG(基於圖形的檢索增強生成)是 RAG 的演進,將知識表示為實體和關係的圖譜,而非扁平的文件區塊。這使得 LLM 能夠遍歷概念之間的連接,回答多跳問題,並提供更具上下文基礎的回應。


延伸閱讀

TAG