Categories

多模态

GLM-4.5:智谱 AI 的次世代多模态基础模型
AI

GLM-4.5:智谱 AI 的次世代多模态基础模型

2025-2026 年基础模型的演进由两个趋势定义:多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时,专家混合(MoE)架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型,由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型,Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入,同时产生流式文本与自然语音输出——全部在单一架构内完成。

Linly-Talker:开源数字虚拟人物对话系统
AI

Linly-Talker:开源数字虚拟人物对话系统

能够进行自然对话的数字虚拟人物——看到你的脸、听到你的声音、以同步的唇部动作和表情回应——几十年来一直是科幻小说的主要元素。到了 2026 年,它已成为一个可以在你自己的硬件上运行的开源项目。 Linly-Talker 是由 Kedreamix 团队开发的全面开源数字虚拟人物对话系统。它将 …

TAG
CATEGORIES