AI

LLM Graph Builder:Neo4j 的 RAG 到图谱管线

LLM Graph Builder 使用 LLM 将非结构化文档转换为 Neo4j 知识图谱,通过实体和关系提取实现 GraphRAG。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LLM Graph Builder:Neo4j 的 RAG 到图谱管线

传统检索增强生成(RAG)的局限性随着组织将 AI 系统部署到生产环境而变得越来越明显。向量搜索——传统 RAG 的骨干——在寻找语义相似的文档块方面做得不错,但它从根本上缺乏结构理解。它无法表达「Apple 在 2014 年收购了 Beats」涉及两个具有特定类型和日期的实体之间的关系。它无法跨多个文档跟踪关系链。它将知识库视为向量的扁平集合,而非相互连接的事实网络。

Neo4j 的 LLM Graph Builder 通过弥合大型语言模型和图形数据库之间的差距来解决这个限制。它是一个开源工具,使用 LLM 自动从非结构化文档中提取实体和关系,然后将结果的结构化数据填充到 Neo4j 知识图谱中。输出是一个结合了 LLM 语义理解和图形数据库结构精确性的 GraphRAG 管线。

工作流程表面上看优雅简单:上传文档、选择 LLM、点击按钮,然后接收一个完整填充的知识图谱。在幕后,LLM Graph Builder 编排了一个由文档解析、分块、实体提取、关系映射、本体强制和图谱填充组成的复杂管线——全部无需用户编写任何提取规则或图形架构。

管线架构

完整的文档到图谱管线分为六个阶段:

阶段过程输出
摄取从文件、URL 或云存储加载文档原始文本语料库
分块将文档分割为 LLM 上下文大小的片段带元数据的文本块
提取LLM 识别实体和关系提取的三元组(主语-谓语-宾语)
验证交叉对比提取结果,解决冲突经过验证的实体图谱
本体映射将实体映射到架构节点和关系图谱兼容结构
填充将节点、边和属性写入 Neo4j实时知识图谱

GraphRAG 查询流程

下图显示了 GraphRAG 如何通过利用知识图谱来增强标准 RAG 管线:

查询路由器是关键创新。简单事实性问题转向向量搜索以获得速度。需要关系遍历的问题——「哪些产品是由 Google 在过去五年内收购的公司开发的?」——被路由到图形查询引擎。复杂问题则使用两种来源,结合向量搜索的广泛覆盖和图形遍历的结构精确性。

实体提取质量

实体提取的质量因 LLM 和文档类型而有显著差异。下表显示了常用模型的基准测试结果:

模型实体精确度关系准确度覆盖率速度每 1000 份文档成本
GPT-4o94%89%92%$12.50
Claude 3.5 Sonnet96%91%93%$10.00
Claude 4 Sonnet97%93%95%非常快$10.00
Gemini 1.5 Pro91%85%88%中等$8.00
Llama 3 (本地)82%74%79%免费
Qwen 2.5 (本地)80%71%76%免费

企业用户通常偏好 Claude 4 Sonnet,因为其最佳的实体精确度和关系准确度,而较小团队或注重隐私的部署可能会选择本地 Llama 模型,尽管提取质量较低。

开始使用

要开始从你的文档创建知识图谱,请访问 LLM Graph Builder GitHub 仓库。该仓库包含完整栈(LLM Graph Builder + Neo4j)的 Docker Compose 文件、用于测试的示例文档,以及连接到不同 LLM 提供商的集成指南。

Neo4j GraphRAG 文档 提供创建 GraphRAG 应用程序的全面指南,包括查询优化、架构设计和性能调优。

常见问题

什么是 LLM Graph Builder?

LLM Graph Builder 是 Neo4j Labs 的开源工具,使用大型语言模型自动将非结构化文档转换为结构化知识图谱。它从文本中提取实体和关系,并直接将其映射到 Neo4j 图形数据库中。

它与传统 RAG 有何不同?

传统 RAG 通过向量相似度检索文档块,缺乏结构理解。由 LLM Graph Builder 支持的 GraphRAG 保留了实体关系和层级结构,实现了纯向量搜索无法准确支持的多跳推理查询。

支持哪些文档格式?

LLM Graph Builder 支持 PDF、HTML、Markdown、JSON、CSV、XML 和纯文本文件。文档可以通过 UI 直接上传,或从 URL、S3 存储桶、Google Drive 和 SharePoint 摄取。该系统处理结构化和半结构化内容。

可以使用哪些 LLM 进行提取?

该工具支持 OpenAI(GPT-4o)、Anthropic(Claude 3/4)、Google(Gemini)以及通过 Ollama 的本地模型。LLM 的选择会影响提取质量和成本,较强的模型通常能产生更准确的实体和关系识别。

什么是 GraphRAG?

GraphRAG(基于图形的检索增强生成)是 RAG 的演进,将知识表示为实体和关系的图谱,而非扁平的文档块。这使得 LLM 能够遍历概念之间的连接,回答多跳问题,并提供更具上下文基础的响应。


延伸阅读

TAG
CATEGORIES