多模态

AI May 05, 2026

GLM-4.5：智谱 AI 的次世代多模态基础模型

2025-2026 年基础模型的演进由两个趋势定义：多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时，专家混合（MoE）架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。

AI May 03, 2026

Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型，由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型，Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入，同时产生流式文本与自然语音输出——全部在单一架构内完成。

AI May 03, 2026

能够进行自然对话的数字虚拟人物——看到你的脸、听到你的声音、以同步的唇部动作和表情回应——几十年来一直是科幻小说的主要元素。到了 2026 年，它已成为一个可以在你自己的硬件上运行的开源项目。 Linly-Talker 是由 Kedreamix 团队开发的全面开源数字虚拟人物对话系统。它将 …

AI May 02, 2026

在快速发展的视觉语言模型领域，一个来自意想不到角落的新重量级选手出现了。由字节跳动 Seed 团队开发的 Seed1.5-VL，在涵盖图像理解、视频理解、文档解析和多图像推理的 60 个公开基准测试中，惊人地在 38 项中达到了业界最佳水平。