Vision

AI May 05, 2026

GEMS：通用多模态传感框架

真实世界并非以单一模态呈现信息。我们同时通过视觉、语言、音频和身体感觉来体验世界，而在现实世界中运作的 AI 系统也需要同样的多模态理解能力。GEMS（GitHub 上的 lcqysl/GEMS）——通用多模态传感框架——提供了一个统一的基础设施，用于构建将视觉、语言、音频和结构化数据整合 …

AI May 03, 2026

能够同时处理视觉、语音和文本的多模态 AI 模型代表了人工智能的前沿。OpenAI 的 GPT-4o 展示了这种方法的潜力，但其封闭性使开源社区奋起直追。由 OpenBMB（清华大学 NLP 实验室的衍生团队）开发的 MiniCPM-o 实现了一个非凡的里程碑：它在单图像理解基准测试上超越 …