PDF 文档仍然是知识传播最常见的格式之一,然而它们也是最难以程序化处理的格式。跨页面的表格、多栏布局、数学方程式、页眉和页脚都共同导致了简单提取工具的失败。Marker 以深度学习方法应对这一挑战,像人类读者一样理解文档结构——通过识别视觉布局模式,而不仅仅是遵循文本顺序。
由 datalab-to 团队创建,Marker 建立在计算机视觉和文档理解的最新进展之上,从 PDF 输入产生高质量的 Markdown 输出。与依赖启发式规则或位置文本提取的传统 PDF 转换器不同,Marker 使用在数千个标注文档页面上训练的神经网络模型来理解布局语义、检测表格和方程式,并重建预期的阅读顺序。
该项目已成为 RAG 生态系统中必不可少的工具,因为文档质量直接影响检索准确度。解析不良的 PDF 会产生混乱的块,混淆嵌入模型并降低答案质量。Marker 的高保真转换确保下游 AI 系统接收干净、结构化的输入。
Marker 的转换流水线如何工作?
Marker 的流水线结合了多个专门模型顺序工作。
graph TD
A[PDF 输入] --> B{是否为扫描 PDF?}
B -->|是| C[Surya OCR\n文本检测与识别]
B -->|否| D[直接文本提取]
C --> E[布局检测模型]
D --> E
E --> F[元素分类\n文本 / 表格 / 方程式 / 图形]
F --> G[阅读顺序重建]
G --> H[表格检测与结构]
G --> I[方程式检测与 LaTeX]
H --> J[Markdown 组装]
I --> J
J --> K[干净的 Markdown 输出]
每个阶段使用一个专门模型:布局检测识别文档区域,元素分类为每个区域标签类型,阅读顺序重建确定正确的顺序。表格和方程式模块拥有针对这些特定结构优化的子模型。
Marker 在不同文档类型上的准确度如何?
基准测试结果显示 Marker 在常见文档类别上的准确度。
| 文档类型 | Marker 准确度 | 传统工具 | 改进 |
|---|---|---|---|
| 学术论文 | 94% | 72% | +22% |
| 技术报告 | 91% | 68% | +23% |
| 商业文档 | 89% | 74% | +15% |
| 多栏布局 | 88% | 55% | +33% |
| 表格 | 92% | 60% | +32% |
| 数学方程式 | 90% | 45% | +45% |
最大的改进出现在表格和方程式等结构复杂的内容上,而正是这些元素给 RAG 流水线带来最多问题。混乱的表格可能失去所有语义意义,而 Marker 则保留了结构关系。
存在哪些性能权衡?
深度学习的准确度带来了用户应考虑的计算成本。
| 方面 | Marker(深度学习) | 传统(PyMuPDF) |
|---|---|---|
| 处理速度 | 1-3 页/秒 | 50-100 页/秒 |
| 需要 GPU | 建议使用 | 不需要 |
| 内存使用 | 2-4 GB | 100-500 MB |
| 质量(复杂) | 优秀 | 差 |
| 质量(简单) | 优秀 | 良好 |
| 设置复杂度 | 需要下载模型 | pip install |
对于数百份文档的批量处理,Marker 建议使用 GPU 加速。在仅使用 CPU 的系统上,处理速度可能慢 10-50 倍,但质量提升无论硬件如何都是相同的。
常见问题
什么是 Marker? Marker 是一个开源工具,使用深度学习模型将 PDF 转换为 Markdown。它能准确处理复杂布局,包括表格、数学方程式、页眉、页脚、多栏文本和图片,产生适合 LLM 摄入的干净 Markdown 输出。
Marker 与传统 PDF 转换工具有何不同? 传统 PDF 转换器依赖基于规则的方法,在复杂布局上表现不佳。Marker 使用在各种文档类型上训练的深度学习模型来理解布局结构、检测表格和方程式,并重建正确的阅读顺序。这在具有挑战性的文档上产生了显著更好的结果。
哪些文档类型最适合 Marker? Marker 在学术论文、技术报告、书籍、手册和商业文档上表现良好。它擅长处理包含文本、表格、方程式和图片的混合内容文档。简单文本文档也可以使用,但可能不值得使用深度学习的开销。
Marker 能处理扫描的 PDF 吗? 可以,Marker 与 OCR 引擎集成以处理扫描的 PDF 和基于图片的文档。它在扫描页面上使用 Surya(来自同一位开发者)进行文本检测和识别,然后通过其布局流水线处理识别出的文本。
输出质量如何? 在基准评估中,Marker 在表格结构保留上达到超过 90% 的准确度,在阅读顺序重建上达到 95%,并在复杂布局上显著优于 PyMuPDF、pdfplumber 和 Adobe Acrobat 的导出功能。输出是干净、结构良好的 Markdown,适合 RAG 摄入。
延伸阅读
- Marker GitHub 仓库 – 源代码、安装指南和模型下载
- Surya OCR GitHub 仓库 – 用于扫描文档文本提取的 OCR 引擎
- PDF 转 Markdown 基准 – 与其他 PDF 转换工具的准确度比较
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!