LLM Graph Builder：Neo4j 的 RAG 到图谱管线

Q: "什么是 LLM Graph Builder？"

"LLM Graph Builder 是 Neo4j Labs 的开源工具，使用大型语言模型自动将非结构化文档转换为结构化知识图谱。它从文本中提取实体和关系，并直接将其映射到 Neo4j 图形数据库中。"

Q: "它与传统 RAG 有何不同？"

"传统 RAG 通过向量相似度检索文档块，缺乏结构理解。由 LLM Graph Builder 支持的 GraphRAG 保留了实体关系和层级结构，实现了纯向量搜索无法准确支持的多跳推理查询。"

Q: "支持哪些文档格式？"

"LLM Graph Builder 支持 PDF、HTML、Markdown、JSON、CSV、XML 和纯文本文件。文档可以通过 UI 直接上传，或从 URL、S3 存储桶、Google Drive 和 SharePoint 摄取。该系统处理结构化和半结构化内容。"

Q: "可以使用哪些 LLM 进行提取？"

"该工具支持 OpenAI（GPT-4o）、Anthropic（Claude 3/4）、Google（Gemini）以及通过 Ollama 的本地模型。LLM 的选择会影响提取质量和成本，较强的模型通常能产生更准确的实体和关系识别。"

Q: "什么是 GraphRAG？"

"GraphRAG（基于图形的检索增强生成）是 RAG 的演进，将知识表示为实体和关系的图谱，而非扁平的文档块。这使得 LLM 能够遍历概念之间的连接，回答多跳问题，并提供更具上下文基础的响应。"

LLM Graph Builder 使用 LLM 将非结构化文档转换为 Neo4j 知识图谱，通过实体和关系提取实现 GraphRAG。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 10 分钟

传统检索增强生成（RAG）的局限性随着组织将 AI 系统部署到生产环境而变得越来越明显。向量搜索——传统 RAG 的骨干——在寻找语义相似的文档块方面做得不错，但它从根本上缺乏结构理解。它无法表达「Apple 在 2014 年收购了 Beats」涉及两个具有特定类型和日期的实体之间的关系。它无法跨多个文档跟踪关系链。它将知识库视为向量的扁平集合，而非相互连接的事实网络。

Neo4j 的 LLM Graph Builder 通过弥合大型语言模型和图形数据库之间的差距来解决这个限制。它是一个开源工具，使用 LLM 自动从非结构化文档中提取实体和关系，然后将结果的结构化数据填充到 Neo4j 知识图谱中。输出是一个结合了 LLM 语义理解和图形数据库结构精确性的 GraphRAG 管线。

工作流程表面上看优雅简单：上传文档、选择 LLM、点击按钮，然后接收一个完整填充的知识图谱。在幕后，LLM Graph Builder 编排了一个由文档解析、分块、实体提取、关系映射、本体强制和图谱填充组成的复杂管线——全部无需用户编写任何提取规则或图形架构。

管线架构

完整的文档到图谱管线分为六个阶段：

阶段	过程	输出
摄取	从文件、URL 或云存储加载文档	原始文本语料库
分块	将文档分割为 LLM 上下文大小的片段	带元数据的文本块
提取	LLM 识别实体和关系	提取的三元组（主语-谓语-宾语）
验证	交叉对比提取结果，解决冲突	经过验证的实体图谱
本体映射	将实体映射到架构节点和关系	图谱兼容结构
填充	将节点、边和属性写入 Neo4j	实时知识图谱

GraphRAG 查询流程

下图显示了 GraphRAG 如何通过利用知识图谱来增强标准 RAG 管线：

flowchart TD
    Q[用户问题] --> Router{查询路由器}
    Router -->|"简单事实<br>查询"| Vector[向量搜索<br>语义块]
    Router -->|"多跳<br>关系查询"| Graph[图形查询<br>Cypher 遍历]
    Router -->|"复杂<br>推理"| Hybrid[混合搜索<br>图形 + 向量]

    Vector --> Context1[检索到的块]
    Graph --> Context2[图形子图]
    Hybrid --> Context3[组合上下文]

    Context1 --> LLM1[LLM 响应]
    Context2 --> LLM2[LLM 响应]
    Context3 --> LLM3[LLM 响应]

    LLM1 --> Answer[最终答案]
    LLM2 --> Answer
    LLM3 --> Answer

查询路由器是关键创新。简单事实性问题转向向量搜索以获得速度。需要关系遍历的问题——「哪些产品是由 Google 在过去五年内收购的公司开发的？」——被路由到图形查询引擎。复杂问题则使用两种来源，结合向量搜索的广泛覆盖和图形遍历的结构精确性。

实体提取质量

实体提取的质量因 LLM 和文档类型而有显著差异。下表显示了常用模型的基准测试结果：

模型	实体精确度	关系准确度	覆盖率	速度	每 1000 份文档成本
GPT-4o	94%	89%	92%	快	$12.50
Claude 3.5 Sonnet	96%	91%	93%	快	$10.00
Claude 4 Sonnet	97%	93%	95%	非常快	$10.00
Gemini 1.5 Pro	91%	85%	88%	中等	$8.00
Llama 3 (本地)	82%	74%	79%	慢	免费
Qwen 2.5 (本地)	80%	71%	76%	慢	免费

企业用户通常偏好 Claude 4 Sonnet，因为其最佳的实体精确度和关系准确度，而较小团队或注重隐私的部署可能会选择本地 Llama 模型，尽管提取质量较低。

开始使用

要开始从你的文档创建知识图谱，请访问 LLM Graph Builder GitHub 仓库。该仓库包含完整栈（LLM Graph Builder + Neo4j）的 Docker Compose 文件、用于测试的示例文档，以及连接到不同 LLM 提供商的集成指南。

Neo4j GraphRAG 文档提供创建 GraphRAG 应用程序的全面指南，包括查询优化、架构设计和性能调优。

常见问题

什么是 LLM Graph Builder？

LLM Graph Builder 是 Neo4j Labs 的开源工具，使用大型语言模型自动将非结构化文档转换为结构化知识图谱。它从文本中提取实体和关系，并直接将其映射到 Neo4j 图形数据库中。

它与传统 RAG 有何不同？

传统 RAG 通过向量相似度检索文档块，缺乏结构理解。由 LLM Graph Builder 支持的 GraphRAG 保留了实体关系和层级结构，实现了纯向量搜索无法准确支持的多跳推理查询。

支持哪些文档格式？

LLM Graph Builder 支持 PDF、HTML、Markdown、JSON、CSV、XML 和纯文本文件。文档可以通过 UI 直接上传，或从 URL、S3 存储桶、Google Drive 和 SharePoint 摄取。该系统处理结构化和半结构化内容。

可以使用哪些 LLM 进行提取？

该工具支持 OpenAI（GPT-4o）、Anthropic（Claude 3/4）、Google（Gemini）以及通过 Ollama 的本地模型。LLM 的选择会影响提取质量和成本，较强的模型通常能产生更准确的实体和关系识别。

什么是 GraphRAG？

GraphRAG（基于图形的检索增强生成）是 RAG 的演进，将知识表示为实体和关系的图谱，而非扁平的文档块。这使得 LLM 能够遍历概念之间的连接，回答多跳问题，并提供更具上下文基础的响应。

LLM Graph Builder：Neo4j 的 RAG 到图谱管线

管线架构

GraphRAG 查询流程

实体提取质量

开始使用