检索增强生成(RAG)已成为将 LLM 响应建立在真实知识基础上的标准架构。由网易有道开发的 QAnything 是一个生产就绪的 RAG 引擎,处理从文档摄取到答案生成的完整管线,特别注重从本地文档集合中进行准确检索。
QAnything 的与众不同之处在于其对检索精度的关注。系统使用结合密集和稀疏方法的两阶段检索管线,然后进行重新排序,以确保 LLM 只收到最相关的上下文。这大幅减少了幻觉,同时保持高召回率。
系统能力
| 功能 | 描述 | 优势 |
|---|---|---|
| 多格式文档支持 | PDF、Word、Excel、PPT、图片 | 无需预先处理 |
| 两阶段检索 | 密集 + 稀疏 + 重新排序 | 高精度和召回率 |
| 多模态理解 | 文档中的文字、表格、图像 | 完整理解 |
| 本地部署 | 完全在内部部署 | 数据隐私有保障 |
| 自定义知识库 | 多个隔离的集合 | 便于组织管理 |
RAG 管线架构
flowchart LR
A[文档] --> B[文档解析器]
B --> C[分块与嵌入]
C --> D[向量数据库]
E[用户查询] --> F[查询嵌入]
D --> G[密集检索]
F --> G
D --> H[稀疏检索]
F --> H
G --> I[融合与重新排序]
H --> I
I --> J[LLM 上下文组装]
J --> K[答案生成]管线通过解析和分块摄取文档,然后将嵌入存储在向量数据库中。查询时,密集和稀疏检索都会找到相关区块,融合结合结果,重新排序优先选择最佳匹配,然后 LLM 根据组装的上下文生成答案。
性能指标
| 指标 | QAnything | 基准 RAG | 改善 |
|---|---|---|---|
| Recall@5 | 93.2% | 82.1% | +11.1% |
| Precision@5 | 89.7% | 76.4% | +13.3% |
| 答案准确度 | 91.5% | 78.2% | +13.3% |
| 延迟(平均) | 1.8 秒 | 2.1 秒 | -14.3% |
如需更多信息,请访问 QAnything GitHub 仓库 和 QAnything 文档网站。
常见问题
Q:QAnything 支持哪些向量数据库? A:它开箱即用支持 Milvus、FAISS、Elasticsearch 和 Qdrant。
Q:QAnything 能处理扫描的 PDF 吗? A:可以,它集成了 OCR 用于扫描文档和基于图像的内容。
Q:QAnything 可以使用哪些 LLM? A:它支持 OpenAI、Anthropic,以及通过 Ollama 和 vLLM 使用本地模型。
Q:QAnything 适合企业部署吗? A:是的,它支持 Docker 部署、水平扩展和多租户隔离。
Q:QAnything 如何处理表格提取? A:它使用专门的表格解析模型来保留检索上下文中的表格结构。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!