傳統檢索增強生成(RAG)的局限性隨著組織將 AI 系統部署到生產環境而變得越來越明顯。向量搜尋——傳統 RAG 的骨幹——在尋找語義相似的文件區塊方面做得不錯,但它從根本上缺乏結構理解。它無法表達「Apple 在 2014 年收購了 Beats」涉及兩個具有特定類型和日期的實體之間的關係。它無法跨多個文件追蹤關係鏈。它將知識庫視為向量的扁平集合,而非相互連結的事實網絡。
Neo4j 的 LLM Graph Builder 透過彌合大型語言模型和圖形資料庫之間的差距來解決這個限制。它是一個開源工具,使用 LLM 自動從非結構化文件中提取實體和關係,然後將結果的結構化資料填充到 Neo4j 知識圖譜中。輸出是一個結合了 LLM 語義理解和圖形資料庫結構精確性的 GraphRAG 管線。
工作流程表面上看起來優雅簡單:上傳文件、選擇 LLM、點擊按鈕,然後接收一個完整填充的知識圖譜。在幕後,LLM Graph Builder 編排了一個由文件解析、分塊、實體提取、關係映射、本體強制和圖譜填充組成的複雜管線——全部無需使用者編寫任何提取規則或圖形綱要。
管線架構
完整的文件到圖譜管線分為六個階段:
| 階段 | 過程 | 輸出 |
|---|---|---|
| 攝取 | 從檔案、URL 或雲端儲存載入文件 | 原始文字語料庫 |
| 分塊 | 將文件分割為 LLM 上下文大小的區段 | 帶元資料的文字區塊 |
| 提取 | LLM 識別實體和關係 | 提取的三元組(主詞-謂詞-受詞) |
| 驗證 | 交叉比對提取結果,解決衝突 | 經過驗證的實體圖譜 |
| 本體映射 | 將實體映射到綱要節點和關係 | 圖譜相容結構 |
| 填充 | 將節點、邊和屬性寫入 Neo4j | 即時知識圖譜 |
GraphRAG 查詢流程
下圖顯示了 GraphRAG 如何透過利用知識圖譜來增強標準 RAG 管線:
flowchart TD
Q[使用者問題] --> Router{查詢路由器}
Router -->|"簡單事實<br>查詢"| Vector[向量搜尋<br>語義區塊]
Router -->|"多跳<br>關係查詢"| Graph[圖形查詢<br>Cypher 遍歷]
Router -->|"複雜<br>推理"| Hybrid[混合搜尋<br>圖形 + 向量]
Vector --> Context1[檢索到的區塊]
Graph --> Context2[圖形子圖]
Hybrid --> Context3[組合上下文]
Context1 --> LLM1[LLM 回應]
Context2 --> LLM2[LLM 回應]
Context3 --> LLM3[LLM 回應]
LLM1 --> Answer[最終答案]
LLM2 --> Answer
LLM3 --> Answer查詢路由器是關鍵創新。簡單事實性問題轉向向量搜尋以獲得速度。需要關係遍歷的問題——「哪些產品是由 Google 在過去五年內收購的公司開發的?」——被路由到圖形查詢引擎。複雜問題則使用兩種來源,結合向量搜尋的廣泛覆蓋和圖形遍歷的結構精確性。
實體提取品質
實體提取的品質因 LLM 和文件類型而有顯著差異。下表顯示了常用模型的基準測試結果:
| 模型 | 實體精確度 | 關係準確度 | 覆蓋率 | 速度 | 每 1000 份文件成本 |
|---|---|---|---|---|---|
| GPT-4o | 94% | 89% | 92% | 快 | $12.50 |
| Claude 3.5 Sonnet | 96% | 91% | 93% | 快 | $10.00 |
| Claude 4 Sonnet | 97% | 93% | 95% | 非常快 | $10.00 |
| Gemini 1.5 Pro | 91% | 85% | 88% | 中等 | $8.00 |
| Llama 3 (本地) | 82% | 74% | 79% | 慢 | 免費 |
| Qwen 2.5 (本地) | 80% | 71% | 76% | 慢 | 免費 |
企業使用者通常偏好 Claude 4 Sonnet,因為其最佳的實體精確度和關係準確度,而較小團隊或注重隱私的部署可能會選擇本地 Llama 模型,儘管提取品質較低。
開始使用
要開始從你的文件建立知識圖譜,請造訪 LLM Graph Builder GitHub 儲存庫。該儲存庫包含完整堆疊(LLM Graph Builder + Neo4j)的 Docker Compose 檔案、用於測試的範例文件,以及連接到不同 LLM 提供商的整合指南。
Neo4j GraphRAG 文件 提供建立 GraphRAG 應用程式的全面指南,包括查詢優化、綱要設計和效能調校。
常見問題
什麼是 LLM Graph Builder?
LLM Graph Builder 是 Neo4j Labs 的開源工具,使用大型語言模型自動將非結構化文件轉換為結構化知識圖譜。它從文字中提取實體和關係,並直接將其映射到 Neo4j 圖形資料庫中。
它與傳統 RAG 有何不同?
傳統 RAG 透過向量相似度檢索文件區塊,缺乏結構理解。由 LLM Graph Builder 支援的 GraphRAG 保留了實體關係和層級結構,實現了純向量搜尋無法準確支援的多跳推理查詢。
支援哪些文件格式?
LLM Graph Builder 支援 PDF、HTML、Markdown、JSON、CSV、XML 和純文字檔案。文件可以透過 UI 直接上傳,或從 URL、S3 儲存桶、Google Drive 和 SharePoint 攝取。該系統處理結構化和半結構化內容。
可以使用哪些 LLM 進行提取?
該工具支援 OpenAI(GPT-4o)、Anthropic(Claude 3/4)、Google(Gemini)以及透過 Ollama 的本地模型。LLM 的選擇會影響提取品質和成本,較強的模型通常能產生更準確的實體和關係識別。
什麼是 GraphRAG?
GraphRAG(基於圖形的檢索增強生成)是 RAG 的演進,將知識表示為實體和關係的圖譜,而非扁平的文件區塊。這使得 LLM 能夠遍歷概念之間的連接,回答多跳問題,並提供更具上下文基礎的回應。
延伸閱讀
- LLM Graph Builder GitHub 儲存庫 – 原始碼、文件和範例專案
- Neo4j GenAI 整合文件 – 使用 Neo4j 建立 GraphRAG 應用程式
- Microsoft GraphRAG 論文 – GraphRAG 方法背後的原始研究
- Memgraph 資料庫指南 – 用於即時處理的替代圖形資料庫
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!