AI

Marker:使用深度学习的开源 PDF 转 Markdown 工具

Marker 使用深度学习模型将 PDF 转换为 Markdown,能处理表格、方程式、标题和复杂布局,具有高准确度。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Marker:使用深度学习的开源 PDF 转 Markdown 工具

PDF 文档仍然是知识传播最常见的格式之一,然而它们也是最难以程序化处理的格式。跨页面的表格、多栏布局、数学方程式、页眉和页脚都共同导致了简单提取工具的失败。Marker 以深度学习方法应对这一挑战,像人类读者一样理解文档结构——通过识别视觉布局模式,而不仅仅是遵循文本顺序。

由 datalab-to 团队创建,Marker 建立在计算机视觉和文档理解的最新进展之上,从 PDF 输入产生高质量的 Markdown 输出。与依赖启发式规则或位置文本提取的传统 PDF 转换器不同,Marker 使用在数千个标注文档页面上训练的神经网络模型来理解布局语义、检测表格和方程式,并重建预期的阅读顺序。

该项目已成为 RAG 生态系统中必不可少的工具,因为文档质量直接影响检索准确度。解析不良的 PDF 会产生混乱的块,混淆嵌入模型并降低答案质量。Marker 的高保真转换确保下游 AI 系统接收干净、结构化的输入。


Marker 的转换流水线如何工作?

Marker 的流水线结合了多个专门模型顺序工作。

graph TD
    A[PDF 输入] --> B{是否为扫描 PDF?}
    B -->|是| C[Surya OCR\n文本检测与识别]
    B -->|否| D[直接文本提取]
    C --> E[布局检测模型]
    D --> E
    E --> F[元素分类\n文本 / 表格 / 方程式 / 图形]
    F --> G[阅读顺序重建]
    G --> H[表格检测与结构]
    G --> I[方程式检测与 LaTeX]
    H --> J[Markdown 组装]
    I --> J
    J --> K[干净的 Markdown 输出]

每个阶段使用一个专门模型:布局检测识别文档区域,元素分类为每个区域标签类型,阅读顺序重建确定正确的顺序。表格和方程式模块拥有针对这些特定结构优化的子模型。


Marker 在不同文档类型上的准确度如何?

基准测试结果显示 Marker 在常见文档类别上的准确度。

文档类型Marker 准确度传统工具改进
学术论文94%72%+22%
技术报告91%68%+23%
商业文档89%74%+15%
多栏布局88%55%+33%
表格92%60%+32%
数学方程式90%45%+45%

最大的改进出现在表格和方程式等结构复杂的内容上,而正是这些元素给 RAG 流水线带来最多问题。混乱的表格可能失去所有语义意义,而 Marker 则保留了结构关系。


存在哪些性能权衡?

深度学习的准确度带来了用户应考虑的计算成本。

方面Marker(深度学习)传统(PyMuPDF)
处理速度1-3 页/秒50-100 页/秒
需要 GPU建议使用不需要
内存使用2-4 GB100-500 MB
质量(复杂)优秀
质量(简单)优秀良好
设置复杂度需要下载模型pip install

对于数百份文档的批量处理,Marker 建议使用 GPU 加速。在仅使用 CPU 的系统上,处理速度可能慢 10-50 倍,但质量提升无论硬件如何都是相同的。


常见问题

什么是 Marker? Marker 是一个开源工具,使用深度学习模型将 PDF 转换为 Markdown。它能准确处理复杂布局,包括表格、数学方程式、页眉、页脚、多栏文本和图片,产生适合 LLM 摄入的干净 Markdown 输出。

Marker 与传统 PDF 转换工具有何不同? 传统 PDF 转换器依赖基于规则的方法,在复杂布局上表现不佳。Marker 使用在各种文档类型上训练的深度学习模型来理解布局结构、检测表格和方程式,并重建正确的阅读顺序。这在具有挑战性的文档上产生了显著更好的结果。

哪些文档类型最适合 Marker? Marker 在学术论文、技术报告、书籍、手册和商业文档上表现良好。它擅长处理包含文本、表格、方程式和图片的混合内容文档。简单文本文档也可以使用,但可能不值得使用深度学习的开销。

Marker 能处理扫描的 PDF 吗? 可以,Marker 与 OCR 引擎集成以处理扫描的 PDF 和基于图片的文档。它在扫描页面上使用 Surya(来自同一位开发者)进行文本检测和识别,然后通过其布局流水线处理识别出的文本。

输出质量如何? 在基准评估中,Marker 在表格结构保留上达到超过 90% 的准确度,在阅读顺序重建上达到 95%,并在复杂布局上显著优于 PyMuPDF、pdfplumber 和 Adobe Acrobat 的导出功能。输出是干净、结构良好的 Markdown,适合 RAG 摄入。


延伸阅读

TAG
CATEGORIES