传统检索增强生成(RAG)的局限性随着组织将 AI 系统部署到生产环境而变得越来越明显。向量搜索——传统 RAG 的骨干——在寻找语义相似的文档块方面做得不错,但它从根本上缺乏结构理解。它无法表达「Apple 在 2014 年收购了 Beats」涉及两个具有特定类型和日期的实体之间的关系。它无法跨多个文档跟踪关系链。它将知识库视为向量的扁平集合,而非相互连接的事实网络。
Neo4j 的 LLM Graph Builder 通过弥合大型语言模型和图形数据库之间的差距来解决这个限制。它是一个开源工具,使用 LLM 自动从非结构化文档中提取实体和关系,然后将结果的结构化数据填充到 Neo4j 知识图谱中。输出是一个结合了 LLM 语义理解和图形数据库结构精确性的 GraphRAG 管线。
工作流程表面上看优雅简单:上传文档、选择 LLM、点击按钮,然后接收一个完整填充的知识图谱。在幕后,LLM Graph Builder 编排了一个由文档解析、分块、实体提取、关系映射、本体强制和图谱填充组成的复杂管线——全部无需用户编写任何提取规则或图形架构。
管线架构
完整的文档到图谱管线分为六个阶段:
| 阶段 | 过程 | 输出 |
|---|---|---|
| 摄取 | 从文件、URL 或云存储加载文档 | 原始文本语料库 |
| 分块 | 将文档分割为 LLM 上下文大小的片段 | 带元数据的文本块 |
| 提取 | LLM 识别实体和关系 | 提取的三元组(主语-谓语-宾语) |
| 验证 | 交叉对比提取结果,解决冲突 | 经过验证的实体图谱 |
| 本体映射 | 将实体映射到架构节点和关系 | 图谱兼容结构 |
| 填充 | 将节点、边和属性写入 Neo4j | 实时知识图谱 |
GraphRAG 查询流程
下图显示了 GraphRAG 如何通过利用知识图谱来增强标准 RAG 管线:
flowchart TD
Q[用户问题] --> Router{查询路由器}
Router -->|"简单事实<br>查询"| Vector[向量搜索<br>语义块]
Router -->|"多跳<br>关系查询"| Graph[图形查询<br>Cypher 遍历]
Router -->|"复杂<br>推理"| Hybrid[混合搜索<br>图形 + 向量]
Vector --> Context1[检索到的块]
Graph --> Context2[图形子图]
Hybrid --> Context3[组合上下文]
Context1 --> LLM1[LLM 响应]
Context2 --> LLM2[LLM 响应]
Context3 --> LLM3[LLM 响应]
LLM1 --> Answer[最终答案]
LLM2 --> Answer
LLM3 --> Answer查询路由器是关键创新。简单事实性问题转向向量搜索以获得速度。需要关系遍历的问题——「哪些产品是由 Google 在过去五年内收购的公司开发的?」——被路由到图形查询引擎。复杂问题则使用两种来源,结合向量搜索的广泛覆盖和图形遍历的结构精确性。
实体提取质量
实体提取的质量因 LLM 和文档类型而有显著差异。下表显示了常用模型的基准测试结果:
| 模型 | 实体精确度 | 关系准确度 | 覆盖率 | 速度 | 每 1000 份文档成本 |
|---|---|---|---|---|---|
| GPT-4o | 94% | 89% | 92% | 快 | $12.50 |
| Claude 3.5 Sonnet | 96% | 91% | 93% | 快 | $10.00 |
| Claude 4 Sonnet | 97% | 93% | 95% | 非常快 | $10.00 |
| Gemini 1.5 Pro | 91% | 85% | 88% | 中等 | $8.00 |
| Llama 3 (本地) | 82% | 74% | 79% | 慢 | 免费 |
| Qwen 2.5 (本地) | 80% | 71% | 76% | 慢 | 免费 |
企业用户通常偏好 Claude 4 Sonnet,因为其最佳的实体精确度和关系准确度,而较小团队或注重隐私的部署可能会选择本地 Llama 模型,尽管提取质量较低。
开始使用
要开始从你的文档创建知识图谱,请访问 LLM Graph Builder GitHub 仓库。该仓库包含完整栈(LLM Graph Builder + Neo4j)的 Docker Compose 文件、用于测试的示例文档,以及连接到不同 LLM 提供商的集成指南。
Neo4j GraphRAG 文档 提供创建 GraphRAG 应用程序的全面指南,包括查询优化、架构设计和性能调优。
常见问题
什么是 LLM Graph Builder?
LLM Graph Builder 是 Neo4j Labs 的开源工具,使用大型语言模型自动将非结构化文档转换为结构化知识图谱。它从文本中提取实体和关系,并直接将其映射到 Neo4j 图形数据库中。
它与传统 RAG 有何不同?
传统 RAG 通过向量相似度检索文档块,缺乏结构理解。由 LLM Graph Builder 支持的 GraphRAG 保留了实体关系和层级结构,实现了纯向量搜索无法准确支持的多跳推理查询。
支持哪些文档格式?
LLM Graph Builder 支持 PDF、HTML、Markdown、JSON、CSV、XML 和纯文本文件。文档可以通过 UI 直接上传,或从 URL、S3 存储桶、Google Drive 和 SharePoint 摄取。该系统处理结构化和半结构化内容。
可以使用哪些 LLM 进行提取?
该工具支持 OpenAI(GPT-4o)、Anthropic(Claude 3/4)、Google(Gemini)以及通过 Ollama 的本地模型。LLM 的选择会影响提取质量和成本,较强的模型通常能产生更准确的实体和关系识别。
什么是 GraphRAG?
GraphRAG(基于图形的检索增强生成)是 RAG 的演进,将知识表示为实体和关系的图谱,而非扁平的文档块。这使得 LLM 能够遍历概念之间的连接,回答多跳问题,并提供更具上下文基础的响应。
延伸阅读
- LLM Graph Builder GitHub 仓库 – 源代码、文档和示例项目
- Neo4j GenAI 集成文档 – 使用 Neo4j 构建 GraphRAG 应用程序
- Microsoft GraphRAG 论文 – GraphRAG 方法背后的原始研究
- Memgraph 数据库指南 – 用于实时处理的替代图形数据库
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!