PDF 文件仍然是知識傳播最常見的格式之一,然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰,像人類讀者一樣理解文件結構——透過識別視覺版面模式,而不僅僅是遵循文字順序。
由 datalab-to 團隊創建,Marker 建立在電腦視覺和文件理解的最新進展之上,從 PDF 輸入產生高品質的 Markdown 輸出。與依賴啟發式規則或位置文字提取的傳統 PDF 轉換器不同,Marker 使用在數千個標註文件頁面上訓練的神經網路模型來理解版面語義、檢測表格和方程式,並重建預期的閱讀順序。
該專案已成為 RAG 生態系統中必不可少的工具,因為文件品質直接影響檢索準確度。解析不良的 PDF 會產生混亂的區塊,混淆嵌入模型並降低答案品質。Marker 的高保真轉換確保下游 AI 系統接收乾淨、結構化的輸入。
Marker 的轉換管道如何運作?
Marker 的管道結合了多個專門模型順序工作。
graph TD
A[PDF 輸入] --> B{是否為掃描 PDF?}
B -->|是| C[Surya OCR\n文字檢測與識別]
B -->|否| D[直接文字提取]
C --> E[版面檢測模型]
D --> E
E --> F[元素分類\n文字 / 表格 / 方程式 / 圖形]
F --> G[閱讀順序重建]
G --> H[表格檢測與結構]
G --> I[方程式檢測與 LaTeX]
H --> J[Markdown 組裝]
I --> J
J --> K[乾淨的 Markdown 輸出]
每個階段使用一個專門模型:版面檢測識別文件區域,元素分類為每個區域標籤類型,閱讀順序重建確定正確的序列。表格和方程式模組擁有針對這些特定結構最佳化的子模型。
Marker 在不同文件類型上的準確度如何?
基準測試結果顯示 Marker 在常見文件類別上的準確度。
| 文件類型 | Marker 準確度 | 傳統工具 | 改進 |
|---|---|---|---|
| 學術論文 | 94% | 72% | +22% |
| 技術報告 | 91% | 68% | +23% |
| 商業文件 | 89% | 74% | +15% |
| 多欄版面 | 88% | 55% | +33% |
| 表格 | 92% | 60% | +32% |
| 數學方程式 | 90% | 45% | +45% |
最大的改進出現在表格和方程式等結構複雜的內容上,而這些正是給 RAG 管道帶來最多問題的元素。混亂的表格可能失去所有語義意義,而 Marker 則保留了結構關係。
存在哪些效能權衡?
深度學習的準確度帶來了使用者應考慮的計算成本。
| 方面 | Marker(深度學習) | 傳統(PyMuPDF) |
|---|---|---|
| 處理速度 | 1-3 頁/秒 | 50-100 頁/秒 |
| 需要 GPU | 建議使用 | 不需要 |
| 記憶體使用 | 2-4 GB | 100-500 MB |
| 品質(複雜) | 優秀 | 差 |
| 品質(簡單) | 優秀 | 良好 |
| 設定複雜度 | 需要下載模型 | pip install |
對於數百份文件的批次處理,Marker 建議使用 GPU 加速。在僅使用 CPU 的系統上,處理速度可能慢 10-50 倍,但品質提升無論硬體如何都是相同的。
常見問題
什麼是 Marker? Marker 是一個開源工具,使用深度學習模型將 PDF 轉換為 Markdown。它能準確處理複雜版面,包括表格、數學方程式、頁首、頁尾、多欄文字和圖片,產生適合 LLM 攝入的乾淨 Markdown 輸出。
Marker 與傳統 PDF 轉換工具有何不同? 傳統 PDF 轉換器依賴基於規則的方法,在複雜版面上表現不佳。Marker 使用在各種文件類型上訓練的深度學習模型來理解版面結構、檢測表格和方程式,並重建正確的閱讀順序。這在具有挑戰性的文件上產生了顯著更好的結果。
哪些文件類型最適合 Marker? Marker 在學術論文、技術報告、書籍、手冊和商業文件上表現良好。它擅長處理包含文字、表格、方程式和圖片的混合內容文件。簡單文字文件也可以使用,但可能不值得使用深度學習的開銷。
Marker 能處理掃描的 PDF 嗎? 可以,Marker 與 OCR 引擎整合以處理掃描的 PDF 和基於圖片的文件。它在掃描頁面上使用 Surya(來自同一位開發者)進行文字檢測和識別,然後透過其版面管道處理識別出的文字。
輸出品質如何? 在基準評估中,Marker 在表格結構保留上達到超過 90% 的準確度,在閱讀順序重建上達到 95%,並在複雜版面上顯著優於 PyMuPDF、pdfplumber 和 Adobe Acrobat 的匯出功能。輸出是乾淨、結構良好的 Markdown,適合 RAG 攝入。
延伸閱讀
- Marker GitHub 倉庫 – 原始碼、安裝指南和模型下載
- Surya OCR GitHub 倉庫 – 用於掃描文件文字提取的 OCR 引擎
- PDF 轉 Markdown 基準 – 與其他 PDF 轉換工具的準確度比較
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!