電腦視覺

AI May 05, 2026

Detectron2：Meta 的物體偵測與分割平台

物體偵測在過去十年中經歷了顯著的演進，從手工設計的特徵發展到能夠以超越人類的準確度識別和定位物體的深度神經網路。Detectron2 站在這股演進的最前沿——Meta AI 的開源平台，實作了用於物體偵測、分割和姿態估計的最新演算法。

AI May 04, 2026

光學字元辨識是電腦視覺最古老的應用之一，但傳統 OCR 引擎一直難以跟上現代需求。如今的文件在版面、多語言內容和品質變異性方面比以往任何時候都更加多樣化。Surya 代表了 OCR 的現代方法，建立在深度學習架構之上，以傳統引擎無法比擬的準確度處理真實世界文件的複雜性。

AI May 04, 2026

圖片生成領域已變得日益碎片化。不同的模型處理文字轉圖片生成、圖片編輯和風格轉換。使用者必須在一個令人困惑的專門工具生態系統中導航，每個工具都有自己的介面、提示格式和能力。OmniGen2 由 VectorSpaceLab 開發，以一個統一的單一架構中處理文字轉圖片、指令引導編輯和上下文內生 …

AI May 04, 2026

光學字元辨識（OCR）幾十年來一直被視為已解決的問題——對於具有簡單文字的清晰掃描文件而言。但真實世界的視覺內容遠更雜亂多樣。帶有複雜符號的數學方程式、具有不規則儲存格結構的表格、帶有專門符號的樂譜，以及招牌和標籤上的場景文字，都挑戰了假設乾淨、線性文字在均勻背景上的傳統 OCR 方法。

AI May 03, 2026

PaddleOCR 是百度基於 PaddlePaddle 深度學習框架的工業級超輕量光學字元辨識 (OCR) 工具包。作為 GitHub 上最受歡迎的開源 OCR 專案之一，PaddleOCR 已發展多個主要版本——目前包括用於文字偵測與辨識的 PP-OCRv5、用於全面文件解析的 …

AI May 03, 2026

InternVL 是由上海人工智慧實驗室的 OpenGVLab 開發的一系列開源視覺語言基礎模型。InternVL 系列將視覺 Transformer 擴展至 60 億個參數，並逐步與大型語言模型對齊，建立統一架構，在多項多模態基準測試中達到 GPT-4o 等級的表現。旗艦模型 …