AI

olmOCR:AI2 的開源 PDF 轉 Markdown 工具包,專為 LLM 訓練資料打造

Allen AI 推出的 olmOCR 使用 7B VLM 將 PDF 轉換為乾淨的 Markdown,每百萬頁成本不到 200 美元,適用於 LLM 資料集準備。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
olmOCR:AI2 的開源 PDF 轉 Markdown 工具包,專為 LLM 訓練資料打造

大規模將 PDF 轉換為乾淨、機器可讀的文字是 LLM 資料集準備中的基本挑戰之一。傳統 PDF 解析器難以處理複雜佈局、表格和混合內容,而商業 OCR 服務在大規模使用時成本昂貴。olmOCR 由 Allen AI(AI2)開發,使用 7B 參數的視覺語言模型解決了這個問題,能以卓越的準確度和成本效益將 PDF 頁面轉換為乾淨的 Markdown。

olmOCR 背後的關鍵洞見是將 PDF 轉換視為視覺語言任務,而非文字提取問題。olmOCR 不解析底層 PDF 結構(這對於複雜佈局通常不可靠),而是將每頁渲染為圖片,並使用其 VLM 來閱讀和轉錄內容,保留佈局、結構和語義。

成本效益令人矚目:每百萬頁不到 200 美元,olmOCR 使網路規模的 PDF 資料集建立變得經濟可行。這為 LLM 訓練開闢了大量科學論文、書籍、技術文件和法律文件的語料庫,這些以前因為太昂貴或品質太低而無法處理。


olmOCR 與傳統 PDF 解析相比如何?

傳統 PDF 解析依賴文件的內部結構,這可能不可靠。olmOCR 基於 VLM 的方法提供了根本不同的策略。

面向傳統 PDF 解析器olmOCR(基於 VLM)
方法解析 PDF 內部結構渲染頁面 + VLM 分析
多欄處理經常失敗可靠
表格提取脆弱強大(保留結構)
數學公式非常差良好至優秀
程式碼區塊不一致強大(保留格式)
掃描文件需要單獨的 OCR原生支援
規模成本便宜每頁約 0.0002 美元
品質一致性因 PDF 格式而異一致
graph LR
    A[PDF 文件] --> B[頁面光柵化]
    B --> C[VLM 處理]
    C --> D[佈局分析]
    C --> E[文字轉錄]
    C --> F[結構保留]
    D --> G[Markdown 輸出]
    E --> G
    F --> G
    G --> H[LLM 訓練資料集]

olmOCR 有哪些效能基準?

olmOCR 已在標準文件理解基準測試上進行評估,取得了頂尖結果。

基準olmOCR傳統解析器商業 OCR 服務指標
DocLayNet87.2%68.5%75.1%佈局 F1
PubTables-1M92.4%71.3%80.2%表格結構準確度
M6Doc84.7%59.8%72.4%文件解析 F1
FUNSD89.1%72.4%81.5%表單理解 F1
CORD91.5%65.2%78.8%收據解析 F1

如何大規模部署 olmOCR?

olmOCR 專為小規模互動式使用和大規模批次處理而設計,具有適合不同吞吐量需求的部署選項。

部署模式最適用於吞吐量基礎設施
單 GPU研究 / 小批次約 1 頁/秒1x A10G / RTX 4090
多 GPU中型語料庫約 5-10 頁/秒4-8x A100
分散式批次網路規模(數百萬)50+ 頁/秒Kubernetes + GPU 叢集
Hugging Face 推論互動式展示可變受管 HF 端點
頁面量估計成本建議設定
1,000 頁約 0.20 美元單 GPU
100,000 頁約 20 美元多 GPU 伺服器
1,000,000 頁約 200 美元分散式處理
10,000,000 頁約 2,000 美元Kubernetes 叢集

常見問題

什麼是 olmOCR? olmOCR 是由 Allen AI(AI2)開發的開源 PDF 轉 Markdown 轉換工具包,使用 7B VLM 將 PDF 轉換為乾淨、結構化的 Markdown,專為 LLM 資料集準備而設計。

olmOCR 成本效益如何? 每百萬頁不到 200 美元,比商業 OCR 服務便宜數個數量級。

olmOCR 擅長處理哪些內容? 多欄文件、表格、數學公式、程式碼區塊、註腳和混合內容。同時處理原生數位 PDF 和掃描文件。

需要什麼 GPU? 至少 16GB VRAM。建議 A10G、A100、RTX 4090 或 H100。

哪些基準測試表現優異? DocLayNet、PubTables-1M、M6Doc、FUNSD 和 CORD,持續超越傳統和 VLM 解析器。


延伸閱讀

TAG