AI

RAGFlow:用于文档理解的开源 RAG 引擎

RAGFlow 是一个开源 RAG 引擎,结合深度文档理解与 LLM,实现精确、附引用来源的问答。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
RAGFlow:用于文档理解的开源 RAG 引擎

RAGFlow 结合深度文档理解与基于 LLM 的生成,提供精确、附引用来源的答案。

graph TD
    A[输入文档\nPDF / DOCX / 图片] --> B[布局分析\n视觉结构检测]
    B --> C[OCR 引擎\n从图片提取文字]
    B --> D[表格检测\n行/列结构]
    B --> E[图形分析\n图表 / 图形理解]
    C --> F[结构保留\n标题 + 正文 + 脚注]
    D --> F
    E --> F
    F --> G[语义分块\n结构感知文本分割]
    G --> H[向量嵌入\n密集检索索引]
    G --> I[关键字索引\n稀疏检索]
    H --> J[混合检索\n密集 + 稀疏搜索]
    I --> J
    J --> K[LLM 生成\n答案 + 引用来源]
功能类别能力
文档解析布局分析、OCR、表格提取、图形分析、结构保留
支持格式PDF、DOCX、XLSX、PPTX、TXT、MD、HTML、EPUB、图片、电子邮件
检索方法密集向量搜索、关键字搜索、混合搜索、重新排序
LLM 集成OpenAI、Claude、Gemini、本地模型(Ollama、vLLM、llama.cpp)
文档类型解析策略关键挑战
扫描 PDF完整 OCR 搭配布局分析倾斜页面、手写
数字 PDF布局分析 + 文本提取表格结构、多列
Excel XLSX单元格感知解析合并单元格、公式
图片OCR + 视觉模型分析复杂布局、混合内容
引用功能说明
源跟踪每个生成的陈述链接回源文档和页码
置信度分数文档检索置信度显示在答案旁边
多源汇总从多个文档综合答案,附单独引用来源

常见问题

什么是 RAGFlow? 开源 RAG 引擎,专门从事深度文档理解,使用视觉语言模型进行结构化解析。

与传统 RAG 有何不同? 使用布局分析和 OCR 保留文档结构,而非任意分块。

支持哪些格式? PDF、DOCX、Excel、PPTX、TXT、MD、HTML、EPUB、图片和电子邮件。

如何处理图片和表格? 使用视觉语言模型进行单元格级表格解析和图形语义分析。

可以与本地 LLM 配合使用吗? 是的,支持 OpenAI、Claude、Gemini 以及通过 Ollama/vLLM 的本地模型。


延伸阅读

TAG
CATEGORIES