AI

olmOCR:AI2 的开源 PDF 转 Markdown 工具包,专为 LLM 训练数据打造

Allen AI 推出的 olmOCR 使用 7B VLM 将 PDF 转换为干净的 Markdown,每百万页成本不到 200 美元,适用于 LLM 数据集准备。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
olmOCR:AI2 的开源 PDF 转 Markdown 工具包,专为 LLM 训练数据打造

大规模将 PDF 转换为干净、机器可读的文本是 LLM 数据集准备中的基本挑战之一。传统 PDF 解析器难以处理复杂布局、表格和混合内容,而商业 OCR 服务在大规模使用时成本昂贵。olmOCR 由 Allen AI(AI2)开发,使用 7B 参数的视觉语言模型解决了这个问题,能以卓越的准确度和成本效益将 PDF 页面转换为干净的 Markdown。

olmOCR 背后的关键洞见是将 PDF 转换视为视觉语言任务,而非文本提取问题。olmOCR 不解析底层 PDF 结构(这对于复杂布局通常不可靠),而是将每页渲染为图像,并使用其 VLM 来阅读和转录内容,保留布局、结构和语义。

成本效益令人瞩目:每百万页不到 200 美元,olmOCR 使网络规模的 PDF 数据集创建变得经济可行。这为 LLM 训练开辟了大量科学论文、书籍、技术文档和法律文档的语料库,这些以前因为太昂贵或品质太低而无法处理。


olmOCR 与传统 PDF 解析相比如何?

传统 PDF 解析依赖文档的内部结构,这可能不可靠。olmOCR 基于 VLM 的方法提供了根本不同的策略。

方面传统 PDF 解析器olmOCR(基于 VLM)
方法解析 PDF 内部结构渲染页面 + VLM 分析
多栏处理经常失败可靠
表格提取脆弱强大(保留结构)
数学公式非常差良好至优秀
代码块不一致强大(保留格式)
扫描文档需要单独的 OCR原生支持
规模成本便宜每页约 0.0002 美元
品质一致性因 PDF 格式而异一致
graph LR
    A[PDF 文档] --> B[页面光栅化]
    B --> C[VLM 处理]
    C --> D[布局分析]
    C --> E[文本转录]
    C --> F[结构保留]
    D --> G[Markdown 输出]
    E --> G
    F --> G
    G --> H[LLM 训练数据集]

olmOCR 有哪些性能基准?

olmOCR 已在标准文档理解基准测试上进行了评估,取得了顶尖结果。

基准olmOCR传统解析器商业 OCR 服务指标
DocLayNet87.2%68.5%75.1%布局 F1
PubTables-1M92.4%71.3%80.2%表格结构准确度
M6Doc84.7%59.8%72.4%文档解析 F1
FUNSD89.1%72.4%81.5%表单理解 F1
CORD91.5%65.2%78.8%收据解析 F1

如何大规模部署 olmOCR?

部署模式最适用于吞吐量基础设施
单 GPU研究 / 小批次约 1 页/秒1x A10G / RTX 4090
多 GPU中型语料库约 5-10 页/秒4-8x A100
分布式批处理网络规模(数百万)50+ 页/秒Kubernetes + GPU 集群
Hugging Face 推理交互式演示可变托管 HF 端点
页面量估计成本建议设置
1,000 页约 0.20 美元单 GPU
100,000 页约 20 美元多 GPU 服务器
1,000,000 页约 200 美元分布式处理
10,000,000 页约 2,000 美元Kubernetes 集群

常见问题

什么是 olmOCR? 由 Allen AI(AI2)开发的开源 PDF 转 Markdown 工具包,使用 7B VLM,专为 LLM 数据集准备而设计。

成本效益? 每百万页不到 200 美元,比商业 OCR 便宜数个数量级。

擅长哪些内容? 多栏文档、表格、数学公式、代码块、脚注和混合内容。

GPU 需求? 至少 16GB VRAM。推荐 A10G、A100、RTX 4090 或 H100。

基准测试? DocLayNet、PubTables-1M、M6Doc、FUNSD 和 CORD 上持续领先。


延伸阅读

TAG
CATEGORIES