AI

Marker:使用深度學習的開源 PDF 轉 Markdown 工具

Marker 使用深度學習模型將 PDF 轉換為 Markdown,能處理表格、方程式、標題和複雜版面,具有高準確度。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Marker:使用深度學習的開源 PDF 轉 Markdown 工具

PDF 文件仍然是知識傳播最常見的格式之一,然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰,像人類讀者一樣理解文件結構——透過識別視覺版面模式,而不僅僅是遵循文字順序。

由 datalab-to 團隊創建,Marker 建立在電腦視覺和文件理解的最新進展之上,從 PDF 輸入產生高品質的 Markdown 輸出。與依賴啟發式規則或位置文字提取的傳統 PDF 轉換器不同,Marker 使用在數千個標註文件頁面上訓練的神經網路模型來理解版面語義、檢測表格和方程式,並重建預期的閱讀順序。

該專案已成為 RAG 生態系統中必不可少的工具,因為文件品質直接影響檢索準確度。解析不良的 PDF 會產生混亂的區塊,混淆嵌入模型並降低答案品質。Marker 的高保真轉換確保下游 AI 系統接收乾淨、結構化的輸入。


Marker 的轉換管道如何運作?

Marker 的管道結合了多個專門模型順序工作。

graph TD
    A[PDF 輸入] --> B{是否為掃描 PDF?}
    B -->|是| C[Surya OCR\n文字檢測與識別]
    B -->|否| D[直接文字提取]
    C --> E[版面檢測模型]
    D --> E
    E --> F[元素分類\n文字 / 表格 / 方程式 / 圖形]
    F --> G[閱讀順序重建]
    G --> H[表格檢測與結構]
    G --> I[方程式檢測與 LaTeX]
    H --> J[Markdown 組裝]
    I --> J
    J --> K[乾淨的 Markdown 輸出]

每個階段使用一個專門模型:版面檢測識別文件區域,元素分類為每個區域標籤類型,閱讀順序重建確定正確的序列。表格和方程式模組擁有針對這些特定結構最佳化的子模型。


Marker 在不同文件類型上的準確度如何?

基準測試結果顯示 Marker 在常見文件類別上的準確度。

文件類型Marker 準確度傳統工具改進
學術論文94%72%+22%
技術報告91%68%+23%
商業文件89%74%+15%
多欄版面88%55%+33%
表格92%60%+32%
數學方程式90%45%+45%

最大的改進出現在表格和方程式等結構複雜的內容上,而這些正是給 RAG 管道帶來最多問題的元素。混亂的表格可能失去所有語義意義,而 Marker 則保留了結構關係。


存在哪些效能權衡?

深度學習的準確度帶來了使用者應考慮的計算成本。

方面Marker(深度學習)傳統(PyMuPDF)
處理速度1-3 頁/秒50-100 頁/秒
需要 GPU建議使用不需要
記憶體使用2-4 GB100-500 MB
品質(複雜)優秀
品質(簡單)優秀良好
設定複雜度需要下載模型pip install

對於數百份文件的批次處理,Marker 建議使用 GPU 加速。在僅使用 CPU 的系統上,處理速度可能慢 10-50 倍,但品質提升無論硬體如何都是相同的。


常見問題

什麼是 Marker? Marker 是一個開源工具,使用深度學習模型將 PDF 轉換為 Markdown。它能準確處理複雜版面,包括表格、數學方程式、頁首、頁尾、多欄文字和圖片,產生適合 LLM 攝入的乾淨 Markdown 輸出。

Marker 與傳統 PDF 轉換工具有何不同? 傳統 PDF 轉換器依賴基於規則的方法,在複雜版面上表現不佳。Marker 使用在各種文件類型上訓練的深度學習模型來理解版面結構、檢測表格和方程式,並重建正確的閱讀順序。這在具有挑戰性的文件上產生了顯著更好的結果。

哪些文件類型最適合 Marker? Marker 在學術論文、技術報告、書籍、手冊和商業文件上表現良好。它擅長處理包含文字、表格、方程式和圖片的混合內容文件。簡單文字文件也可以使用,但可能不值得使用深度學習的開銷。

Marker 能處理掃描的 PDF 嗎? 可以,Marker 與 OCR 引擎整合以處理掃描的 PDF 和基於圖片的文件。它在掃描頁面上使用 Surya(來自同一位開發者)進行文字檢測和識別,然後透過其版面管道處理識別出的文字。

輸出品質如何? 在基準評估中,Marker 在表格結構保留上達到超過 90% 的準確度,在閱讀順序重建上達到 95%,並在複雜版面上顯著優於 PyMuPDF、pdfplumber 和 Adobe Acrobat 的匯出功能。輸出是乾淨、結構良好的 Markdown,適合 RAG 攝入。


延伸閱讀

TAG