Tags

文件處理

pypdf:純 Python PDF 工具包
Python

pypdf:純 Python PDF 工具包

當你需要在 Python 中操作 PDF 而不需要大量外部依賴時,pypdf 是首選解決方案。這個純 Python 函式庫提供了全面的 PDF 操作能力,包括分割、合併、裁剪、旋轉、加密和文字提取,全部無需任何原生程式碼或系統函式庫。 Pypdf 作為標準的 Python PDF 函式庫已 …

PyMuPDF:用於 Python 的高效能 PDF 處理
Python

PyMuPDF:用於 Python 的高效能 PDF 處理

當你需要 PDF 處理的原始速度時,PyMuPDF 是 Python PDF 函式庫中的效能領導者。PyMuPDF 建構為 Artifex 基於 C 語言的 MuPDF 函式庫的 Python 綁定,結合了 Python 的易用性與 C 語言級別的渲染、提取和操作 PDF 文件的效能。 …

Marker:使用深度學習的開源 PDF 轉 Markdown 工具
AI

Marker:使用深度學習的開源 PDF 轉 Markdown 工具

PDF 文件仍然是知識傳播最常見的格式之一,然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰,像人類讀者一樣理解文件結構——透過識別視覺版面模式,而不僅僅是遵循文字順序。

OmniParse:適用於 GenAI 管線的開源通用資料解析工具
AI

OmniParse:適用於 GenAI 管線的開源通用資料解析工具

現代 GenAI 應用程式會消費多種形式的資料——PDF、試算表、圖片、錄音和影片檔案。建立一個能攝取所有這些格式並產生乾淨、一致的結構化輸出的 RAG 管線,是一項重大的工程挑戰。OmniParse 透過提供一個通用資料攝取平台來解決這個問題,該平台可將任何非結構化資料轉換為結構化 …

TAG