LLM Graph Builder：Neo4j 的 RAG 到圖譜管線

Q: "什麼是 LLM Graph Builder？"

"LLM Graph Builder 是 Neo4j Labs 的開源工具，使用大型語言模型自動將非結構化文件轉換為結構化知識圖譜。它從文字中提取實體和關係，並直接將其映射到 Neo4j 圖形資料庫中。"

Q: "它與傳統 RAG 有何不同？"

"傳統 RAG 透過向量相似度檢索文件區塊，缺乏結構理解。由 LLM Graph Builder 支援的 GraphRAG 保留了實體關係和層級結構，實現了純向量搜尋無法準確支援的多跳推理查詢。"

Q: "支援哪些文件格式？"

"LLM Graph Builder 支援 PDF、HTML、Markdown、JSON、CSV、XML 和純文字檔案。文件可以透過 UI 直接上傳，或從 URL、S3 儲存桶、Google Drive 和 SharePoint 攝取。該系統處理結構化和半結構化內容。"

Q: "可以使用哪些 LLM 進行提取？"

"該工具支援 OpenAI（GPT-4o）、Anthropic（Claude 3/4）、Google（Gemini）以及透過 Ollama 的本地模型。LLM 的選擇會影響提取品質和成本，較強的模型通常能產生更準確的實體和關係識別。"

Q: "什麼是 GraphRAG？"

"GraphRAG（基於圖形的檢索增強生成）是 RAG 的演進，將知識表示為實體和關係的圖譜，而非扁平的文件區塊。這使得 LLM 能夠遍歷概念之間的連接，回答多跳問題，並提供更具上下文基礎的回應。"

LLM Graph Builder 使用 LLM 將非結構化文件轉換為 Neo4j 知識圖譜，透過實體和關係提取實現 GraphRAG。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 05, 2026 閱讀 10 分鐘

傳統檢索增強生成（RAG）的局限性隨著組織將 AI 系統部署到生產環境而變得越來越明顯。向量搜尋——傳統 RAG 的骨幹——在尋找語義相似的文件區塊方面做得不錯，但它從根本上缺乏結構理解。它無法表達「Apple 在 2014 年收購了 Beats」涉及兩個具有特定類型和日期的實體之間的關係。它無法跨多個文件追蹤關係鏈。它將知識庫視為向量的扁平集合，而非相互連結的事實網絡。

Neo4j 的 LLM Graph Builder 透過彌合大型語言模型和圖形資料庫之間的差距來解決這個限制。它是一個開源工具，使用 LLM 自動從非結構化文件中提取實體和關係，然後將結果的結構化資料填充到 Neo4j 知識圖譜中。輸出是一個結合了 LLM 語義理解和圖形資料庫結構精確性的 GraphRAG 管線。

工作流程表面上看起來優雅簡單：上傳文件、選擇 LLM、點擊按鈕，然後接收一個完整填充的知識圖譜。在幕後，LLM Graph Builder 編排了一個由文件解析、分塊、實體提取、關係映射、本體強制和圖譜填充組成的複雜管線——全部無需使用者編寫任何提取規則或圖形綱要。

管線架構

完整的文件到圖譜管線分為六個階段：

階段	過程	輸出
攝取	從檔案、URL 或雲端儲存載入文件	原始文字語料庫
分塊	將文件分割為 LLM 上下文大小的區段	帶元資料的文字區塊
提取	LLM 識別實體和關係	提取的三元組（主詞-謂詞-受詞）
驗證	交叉比對提取結果，解決衝突	經過驗證的實體圖譜
本體映射	將實體映射到綱要節點和關係	圖譜相容結構
填充	將節點、邊和屬性寫入 Neo4j	即時知識圖譜

GraphRAG 查詢流程

下圖顯示了 GraphRAG 如何透過利用知識圖譜來增強標準 RAG 管線：

flowchart TD
    Q[使用者問題] --> Router{查詢路由器}
    Router -->|"簡單事實<br>查詢"| Vector[向量搜尋<br>語義區塊]
    Router -->|"多跳<br>關係查詢"| Graph[圖形查詢<br>Cypher 遍歷]
    Router -->|"複雜<br>推理"| Hybrid[混合搜尋<br>圖形 + 向量]

    Vector --> Context1[檢索到的區塊]
    Graph --> Context2[圖形子圖]
    Hybrid --> Context3[組合上下文]

    Context1 --> LLM1[LLM 回應]
    Context2 --> LLM2[LLM 回應]
    Context3 --> LLM3[LLM 回應]

    LLM1 --> Answer[最終答案]
    LLM2 --> Answer
    LLM3 --> Answer

查詢路由器是關鍵創新。簡單事實性問題轉向向量搜尋以獲得速度。需要關係遍歷的問題——「哪些產品是由 Google 在過去五年內收購的公司開發的？」——被路由到圖形查詢引擎。複雜問題則使用兩種來源，結合向量搜尋的廣泛覆蓋和圖形遍歷的結構精確性。

實體提取品質

實體提取的品質因 LLM 和文件類型而有顯著差異。下表顯示了常用模型的基準測試結果：

模型	實體精確度	關係準確度	覆蓋率	速度	每 1000 份文件成本
GPT-4o	94%	89%	92%	快	$12.50
Claude 3.5 Sonnet	96%	91%	93%	快	$10.00
Claude 4 Sonnet	97%	93%	95%	非常快	$10.00
Gemini 1.5 Pro	91%	85%	88%	中等	$8.00
Llama 3 (本地)	82%	74%	79%	慢	免費
Qwen 2.5 (本地)	80%	71%	76%	慢	免費

企業使用者通常偏好 Claude 4 Sonnet，因為其最佳的實體精確度和關係準確度，而較小團隊或注重隱私的部署可能會選擇本地 Llama 模型，儘管提取品質較低。

開始使用

要開始從你的文件建立知識圖譜，請造訪 LLM Graph Builder GitHub 儲存庫。該儲存庫包含完整堆疊（LLM Graph Builder + Neo4j）的 Docker Compose 檔案、用於測試的範例文件，以及連接到不同 LLM 提供商的整合指南。

Neo4j GraphRAG 文件提供建立 GraphRAG 應用程式的全面指南，包括查詢優化、綱要設計和效能調校。

常見問題

什麼是 LLM Graph Builder？

LLM Graph Builder 是 Neo4j Labs 的開源工具，使用大型語言模型自動將非結構化文件轉換為結構化知識圖譜。它從文字中提取實體和關係，並直接將其映射到 Neo4j 圖形資料庫中。

它與傳統 RAG 有何不同？

傳統 RAG 透過向量相似度檢索文件區塊，缺乏結構理解。由 LLM Graph Builder 支援的 GraphRAG 保留了實體關係和層級結構，實現了純向量搜尋無法準確支援的多跳推理查詢。

支援哪些文件格式？

LLM Graph Builder 支援 PDF、HTML、Markdown、JSON、CSV、XML 和純文字檔案。文件可以透過 UI 直接上傳，或從 URL、S3 儲存桶、Google Drive 和 SharePoint 攝取。該系統處理結構化和半結構化內容。

可以使用哪些 LLM 進行提取？

該工具支援 OpenAI（GPT-4o）、Anthropic（Claude 3/4）、Google（Gemini）以及透過 Ollama 的本地模型。LLM 的選擇會影響提取品質和成本，較強的模型通常能產生更準確的實體和關係識別。

什麼是 GraphRAG？

GraphRAG（基於圖形的檢索增強生成）是 RAG 的演進，將知識表示為實體和關係的圖譜，而非扁平的文件區塊。這使得 LLM 能夠遍歷概念之間的連接，回答多跳問題，並提供更具上下文基礎的回應。

LLM Graph Builder：Neo4j 的 RAG 到圖譜管線

管線架構

GraphRAG 查詢流程

實體提取品質

開始使用