计算机视觉

AI May 05, 2026

Detectron2：Meta 的目标检测与分割平台

目标检测在过去十年中经历了显著的演进，从手工设计的特征发展到能够以超越人类的准确性识别和定位目标的深度神经网络。Detectron2 站在这股演进的最前沿——Meta AI 的开源平台，实现了用于目标检测、分割和姿态估计的最先进算法。

AI May 04, 2026

光学字符识别是计算机视觉最古老的应用之一，但传统 OCR 引擎一直难以跟上现代需求。如今的文档在布局、多语言内容以及质量变异性方面比以往任何时候都更加多样化。Surya 代表了 OCR 的现代方法，建立在深度学习架构之上，以传统引擎无法比拟的准确度处理真实世界文档的复杂性。

AI May 04, 2026

图像生成领域已变得日益碎片化。不同的模型处理文生图生成、图像编辑和风格转换。用户必须在一个令人困惑的专门工具生态系统中导航，每个工具都有自己的界面、提示格式和能力。OmniGen2 由 VectorSpaceLab 开发，以一个统一的单一架构中处理文生图、指令引导编辑和上下文内生成的多模态 …

AI May 04, 2026

光学字符识别（OCR）几十年来一直被视为已解决的问题——对于具有简单文本的清晰扫描文档而言。但真实世界的视觉内容远更杂乱多样。带有复杂符号的数学方程、具有不规则单元格结构的表格、带有专门符号的乐谱，以及招牌和标签上的场景文本，都挑战了假设干净、线性文本在均匀背景上的传统 OCR 方法。

AI May 03, 2026

PaddleOCR 是百度基于 PaddlePaddle 深度学习框架的工业级超轻量光学字符识别 (OCR) 工具包。作为 GitHub 上最受欢迎的开源 OCR 项目之一，PaddleOCR 已发展多个主要版本——目前包括用于文本检测与识别的 PP-OCRv5、用于全面文档解析的 …

AI May 03, 2026

InternVL 是由上海人工智能实验室的 OpenGVLab 开发的一系列开源视觉语言基础模型。InternVL 系列将视觉 Transformer 扩展至 60 亿个参数，并逐步与大型语言模型对齐，建立统一架构，在多项多模态基准测试中达到 GPT-4o 级别的表现。旗舰模型 …