Python

PyMuPDF:用於 Python 的高效能 PDF 處理

PyMuPDF 是一個用於 PDF、XPS、EPUB 和圖像文件處理的高效能 Python 函式庫,具有渲染、提取和註釋功能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
PyMuPDF:用於 Python 的高效能 PDF 處理

當你需要 PDF 處理的原始速度時,PyMuPDF 是 Python PDF 函式庫中的效能領導者。PyMuPDF 建構為 Artifex 基於 C 語言的 MuPDF 函式庫的 Python 綁定,結合了 Python 的易用性與 C 語言級別的渲染、提取和操作 PDF 文件的效能。

PyMuPDF 處理 PDF 的速度比純 Python 替代方案快 10-100 倍。它在毫秒內將頁面渲染為圖像,以精確定位提取文字,管理註釋,並處理表單。除了 PDF 之外,它還支援 XPS、EPUB、MOBI、FB2 和常見的圖像格式,使其成為一個多功能文件處理引擎。

效能基準

操作PyMuPDFpypdfpdfminer單位
文字提取(100 頁)0.34.28.5
頁面渲染0.05N/AN/A秒/頁
記憶體使用451202001000 頁的 MB
PDF 合併(50 個檔案)0.82.1N/A

核心能力

功能描述
頁面渲染以任何解析度將頁面轉換為 PNG、JPEG 或 Pixmap
文字提取獲取帶有位置、字型和樣式的文字
圖像提取以原始格式提取嵌入的圖像
註釋管理新增、編輯和移除螢光筆、筆記、印章
文件轉換在 PDF、XPS、EPUB 和圖像之間進行轉換

渲染和提取管線

MuPDF 核心引擎解析文件結構並提供對每個元素的高速存取。Python 綁定將此包裝為熟悉的物件,如 DocumentPagePixmap,並附有直觀的方法。

何時選擇 PyMuPDF

當效能至關重要時,PyMuPDF 是最佳選擇:渲染數千頁進行預覽、從大型文件存檔中提取文字,或建構即時文件處理管線。其基於 C 的核心使其非常適合吞吐量至關重要的伺服器端處理。代價是需要更複雜的安裝過程,需要原生編譯,但大多數平台都提供了預建的 wheels。

如需更多資訊,請造訪 PyMuPDF GitHub 儲存庫PyMuPDF 文件

常見問題

Q:我需要單獨安裝 MuPDF 嗎? A:不需要,MuPDF 與 PyMuPDF 捆綁在一起,並透過 pip 自動安裝。

Q:PyMuPDF 能處理 PDF/A 文件嗎? A:是的,它處理讀取和寫入的 PDF/A 文件。

Q:PyMuPDF 可以從掃描的 PDF 中提取文字嗎? A:不能直接提取——它提取 PDF 中儲存的文字。對於掃描文件,請與 OCR 函式庫配合使用。

Q:PyMuPDF 是執行緒安全的嗎? A:Document 物件不是執行緒安全的,但你可以使用多個程序進行並行處理。

Q:頁面渲染支援哪些圖像格式? A:PNG、JPEG、TIFF、BMP、PPM 和 PGM,支援任何解析度或 DPI 設定。

TAG