Tags

電腦視覺

Detectron2:Meta 的物體偵測與分割平台
AI

Detectron2:Meta 的物體偵測與分割平台

物體偵測在過去十年中經歷了顯著的演進,從手工設計的特徵發展到能夠以超越人類的準確度識別和定位物體的深度神經網路。Detectron2 站在這股演進的最前沿——Meta AI 的開源平台,實作了用於物體偵測、分割和姿態估計的最新演算法。

GOT-OCR2.0:邁向 OCR-2.0 的通用 OCR 理論與統一端到端模型
AI

GOT-OCR2.0:邁向 OCR-2.0 的通用 OCR 理論與統一端到端模型

光學字元辨識(OCR)幾十年來一直被視為已解決的問題——對於具有簡單文字的清晰掃描文件而言。但真實世界的視覺內容遠更雜亂多樣。帶有複雜符號的數學方程式、具有不規則儲存格結構的表格、帶有專門符號的樂譜,以及招牌和標籤上的場景文字,都挑戰了假設乾淨、線性文字在均勻背景上的傳統 OCR 方法。

LayoutParser:用於文件影像分析的統一開源工具包
AI

LayoutParser:用於文件影像分析的統一開源工具包

如果你曾經嘗試從掃描的 PDF、歷史報紙檔案或一疊發票中提取結構化資訊,你就知道痛苦所在:每份文件看起來都不一樣,每個模型期望不同的輸入格式,每個 OCR 引擎以不同的座標系統輸出文字。LayoutParser 就是為了終結這種混亂而建立的。

TAG