RAGFlow 结合深度文档理解与基于 LLM 的生成,提供精确、附引用来源的答案。
graph TD
A[输入文档\nPDF / DOCX / 图片] --> B[布局分析\n视觉结构检测]
B --> C[OCR 引擎\n从图片提取文字]
B --> D[表格检测\n行/列结构]
B --> E[图形分析\n图表 / 图形理解]
C --> F[结构保留\n标题 + 正文 + 脚注]
D --> F
E --> F
F --> G[语义分块\n结构感知文本分割]
G --> H[向量嵌入\n密集检索索引]
G --> I[关键字索引\n稀疏检索]
H --> J[混合检索\n密集 + 稀疏搜索]
I --> J
J --> K[LLM 生成\n答案 + 引用来源]
| 功能类别 | 能力 |
|---|---|
| 文档解析 | 布局分析、OCR、表格提取、图形分析、结构保留 |
| 支持格式 | PDF、DOCX、XLSX、PPTX、TXT、MD、HTML、EPUB、图片、电子邮件 |
| 检索方法 | 密集向量搜索、关键字搜索、混合搜索、重新排序 |
| LLM 集成 | OpenAI、Claude、Gemini、本地模型(Ollama、vLLM、llama.cpp) |
| 文档类型 | 解析策略 | 关键挑战 |
|---|---|---|
| 扫描 PDF | 完整 OCR 搭配布局分析 | 倾斜页面、手写 |
| 数字 PDF | 布局分析 + 文本提取 | 表格结构、多列 |
| Excel XLSX | 单元格感知解析 | 合并单元格、公式 |
| 图片 | OCR + 视觉模型分析 | 复杂布局、混合内容 |
| 引用功能 | 说明 |
|---|---|
| 源跟踪 | 每个生成的陈述链接回源文档和页码 |
| 置信度分数 | 文档检索置信度显示在答案旁边 |
| 多源汇总 | 从多个文档综合答案,附单独引用来源 |
常见问题
什么是 RAGFlow? 开源 RAG 引擎,专门从事深度文档理解,使用视觉语言模型进行结构化解析。
与传统 RAG 有何不同? 使用布局分析和 OCR 保留文档结构,而非任意分块。
支持哪些格式? PDF、DOCX、Excel、PPTX、TXT、MD、HTML、EPUB、图片和电子邮件。
如何处理图片和表格? 使用视觉语言模型进行单元格级表格解析和图形语义分析。
可以与本地 LLM 配合使用吗? 是的,支持 OpenAI、Claude、Gemini 以及通过 Ollama/vLLM 的本地模型。
延伸阅读
- RAGFlow GitHub 仓库 – 源代码、文档和部署指南
- RAGFlow 官方文档 – 用户指南和 API 参考
- RAG 架构概述 – RAG 概念和设计介绍
- LayoutLM 论文 (ArXiv) – 文档布局理解的基础论文
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!