Categories

電腦視覺

Detectron2:Meta 的物體偵測與分割平台
AI

Detectron2:Meta 的物體偵測與分割平台

物體偵測在過去十年中經歷了顯著的演進,從手工設計的特徵發展到能夠以超越人類的準確度識別和定位物體的深度神經網路。Detectron2 站在這股演進的最前沿——Meta AI 的開源平台,實作了用於物體偵測、分割和姿態估計的最新演算法。

Surya:開源多語言 OCR 與文件理解系統
AI

Surya:開源多語言 OCR 與文件理解系統

光學字元辨識是電腦視覺最古老的應用之一,但傳統 OCR 引擎一直難以跟上現代需求。如今的文件在版面、多語言內容和品質變異性方面比以往任何時候都更加多樣化。Surya 代表了 OCR 的現代方法,建立在深度學習架構之上,以傳統引擎無法比擬的準確度處理真實世界文件的複雜性。

OmniGen2:進階開源多模態生成模型
AI

OmniGen2:進階開源多模態生成模型

圖片生成領域已變得日益碎片化。不同的模型處理文字轉圖片生成、圖片編輯和風格轉換。使用者必須在一個令人困惑的專門工具生態系統中導航,每個工具都有自己的介面、提示格式和能力。OmniGen2 由 VectorSpaceLab 開發,以一個統一的單一架構中處理文字轉圖片、指令引導編輯和上下文內生 …

GOT-OCR2.0:邁向 OCR-2.0 的通用 OCR 理論與統一端到端模型
AI

GOT-OCR2.0:邁向 OCR-2.0 的通用 OCR 理論與統一端到端模型

光學字元辨識(OCR)幾十年來一直被視為已解決的問題——對於具有簡單文字的清晰掃描文件而言。但真實世界的視覺內容遠更雜亂多樣。帶有複雜符號的數學方程式、具有不規則儲存格結構的表格、帶有專門符號的樂譜,以及招牌和標籤上的場景文字,都挑戰了假設乾淨、線性文字在均勻背景上的傳統 OCR 方法。

PaddleOCR:百度支援 80+ 語言的超輕量 OCR 工具包
AI

PaddleOCR:百度支援 80+ 語言的超輕量 OCR 工具包

PaddleOCR 是百度基於 PaddlePaddle 深度學習框架的工業級超輕量光學字元辨識 (OCR) 工具包。作為 GitHub 上最受歡迎的開源 OCR 專案之一,PaddleOCR 已發展多個主要版本——目前包括用於文字偵測與辨識的 PP-OCRv5、用於全面文件解析的 …

InternVL:擴展至 241B 參數的開源視覺語言模型系列
AI

InternVL:擴展至 241B 參數的開源視覺語言模型系列

InternVL 是由上海人工智慧實驗室的 OpenGVLab 開發的一系列開源視覺語言基礎模型。InternVL 系列將視覺 Transformer 擴展至 60 億個參數,並逐步與大型語言模型對齊,建立統一架構,在多項多模態基準測試中達到 GPT-4o 等級的表現。旗艦模型 …

TAG