Tags

OCR

GOT-OCR2.0:邁向 OCR-2.0 的通用 OCR 理論與統一端到端模型
AI

GOT-OCR2.0:邁向 OCR-2.0 的通用 OCR 理論與統一端到端模型

光學字元辨識(OCR)幾十年來一直被視為已解決的問題——對於具有簡單文字的清晰掃描文件而言。但真實世界的視覺內容遠更雜亂多樣。帶有複雜符號的數學方程式、具有不規則儲存格結構的表格、帶有專門符號的樂譜,以及招牌和標籤上的場景文字,都挑戰了假設乾淨、線性文字在均勻背景上的傳統 OCR 方法。

PaddleOCR:百度支援 80+ 語言的超輕量 OCR 工具包
AI

PaddleOCR:百度支援 80+ 語言的超輕量 OCR 工具包

PaddleOCR 是百度基於 PaddlePaddle 深度學習框架的工業級超輕量光學字元辨識 (OCR) 工具包。作為 GitHub 上最受歡迎的開源 OCR 專案之一,PaddleOCR 已發展多個主要版本——目前包括用於文字偵測與辨識的 PP-OCRv5、用於全面文件解析的 …

LayoutParser:用於文件影像分析的統一開源工具包
AI

LayoutParser:用於文件影像分析的統一開源工具包

如果你曾經嘗試從掃描的 PDF、歷史報紙檔案或一疊發票中提取結構化資訊,你就知道痛苦所在:每份文件看起來都不一樣,每個模型期望不同的輸入格式,每個 OCR 引擎以不同的座標系統輸出文字。LayoutParser 就是為了終結這種混亂而建立的。

TAG