Tags

OCR

PDF-Extract-Kit:全面的 PDF 內容提取工具包
AI

PDF-Extract-Kit:全面的 PDF 內容提取工具包

PDF 仍然是文件交換最常見的格式,但從中提取結構化內容是出了名的困難。由 OpenDataLab 開發的 PDF-Extract-Kit 結合了深度學習模型與傳統的基於規則的方法,以卓越的準確度提取文字、表格、公式和圖像。 該工具包解決了 PDF 提取的全面挑戰。掃描文件使用 OCR 處 …

Surya:開源多語言 OCR 與文件理解系統
AI

Surya:開源多語言 OCR 與文件理解系統

光學字元辨識是電腦視覺最古老的應用之一,但傳統 OCR 引擎一直難以跟上現代需求。如今的文件在版面、多語言內容和品質變異性方面比以往任何時候都更加多樣化。Surya 代表了 OCR 的現代方法,建立在深度學習架構之上,以傳統引擎無法比擬的準確度處理真實世界文件的複雜性。

Marker:使用深度學習的開源 PDF 轉 Markdown 工具
AI

Marker:使用深度學習的開源 PDF 轉 Markdown 工具

PDF 文件仍然是知識傳播最常見的格式之一,然而它們也是最難以程式化處理的格式。跨頁面的表格、多欄版面、數學方程式、頁首和頁尾都共同導致了簡單提取工具的失敗。Marker 以深度學習方法應對這一挑戰,像人類讀者一樣理解文件結構——透過識別視覺版面模式,而不僅僅是遵循文字順序。

RapidLayout:開源中英文文件版面分析工具
AI

RapidLayout:開源中英文文件版面分析工具

文件版面分析是任何文件理解管線中至關重要的第一步。在 OCR 提取文字之前、在表格被解析之前、在內容被分類之前,系統需要先了解事物在頁面上的位置。RapidLayout 是 RapidAI 團隊開發的開源函式庫,專注於解決這一挑戰,並同時支援中英文文件內容。

TAG