Tags

Python

PDFPlumber:使用 Python 從 PDF 提取文字、表格和元資料
Python

PDFPlumber:使用 Python 從 PDF 提取文字、表格和元資料

PDF 仍然是分發文件最常見的格式之一,但以程式化方式從中提取資料一直具有挑戰性。PDF 格式保留視覺版面,但犧牲了結構語義,使得區分表格與欄位版面或標題與正文文字變得困難。PDFPlumber(GitHub 上的 jsvine/pdfplumber)透過提供一個 Python 函式庫來應 …

Dynaconf:適用於所有環境的 Python 設定管理
Python

Dynaconf:適用於所有環境的 Python 設定管理

設定管理是一個看似簡單的問題,直到你需要處理多個環境、數百個設定以及靈活性與安全性之間的持續拉鋸。Dynaconf(GitHub 上的 dynaconf/dynaconf)是一個 Python 設定管理函式庫,它以最少的樣板程式碼,提供一個在開發、測試和正式環境中都能運作的統一系統,直接應 …

MarkItDown:Microsoft 的通用文件轉 Markdown 轉換器
AI

MarkItDown:Microsoft 的通用文件轉 Markdown 轉換器

任何文件理解 AI 流程的第一步是將原始文件轉換為機器可讀的文字。這個看似簡單的任務充滿了挑戰:具有複雜佈局的 PDF、沒有可提取文字的掃描文件、帶有合併儲存格的 Excel 檔案、帶有嵌入圖片的 PowerPoint。MarkItDown,Microsoft 的開源文件轉換工具,正面應對 …

TAG