Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型,由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型,Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入,同时产生流式文本与自然语音输出——全部在单一架构内完成。
该模型引入了多项架构创新,最值得注意的是 Thinker-Talker 架构,它在推理与语音生成之间做出区分,同时保持两者之间的紧密耦合。通过引入 TMRoPE(时间同步多模态旋转位置编码),Qwen2.5-Omni 实现了跨模态的精确时间对齐,能够执行实时视频描述生成、视听问答与同声传译等任务。
什么是 Thinker-Talker 架构?
Thinker-Talker 架构是 Qwen2.5-Omni 的核心创新。Thinker 组件通过共享的 Transformer 骨干处理所有输入模态,在共享潜在空间中进行多模态推理。Talker 组件接收 Thinker 的输出表征并产生流式语音或文本。这种分离让 Thinker 可以专注于理解与推理,而 Talker 则处理语音生成的时间动态。
flowchart TD
A[文本输入] --> E[分词器]
B[图像输入] --> F[视觉编码器]
C[音频输入] --> G[音频编码器]
D[视频输入] --> H[视频编码器]
E --> I[Thinker]
F --> I
G --> I
H --> I
I --> J[多模态潜在空间]
J --> K[Talker]
K --> L[语音输出]
K --> M[文本输出]有哪些模型大小可供选择?
| 模型 | 参数量 | 架构 | 上下文窗口 |
|---|---|---|---|
| Qwen2.5-Omni-7B | 7.0B | Thinker + Talker | 32K tokens |
| Qwen2.5-Omni-14B | 14.5B | Thinker + Talker | 32K tokens |
| Qwen2.5-Omni-72B | 72.0B | Thinker + Talker | 32K tokens |
多模态能力
| 模态 | 输入 | 输出 | 任务 |
|---|---|---|---|
| 文本 | 是 | 是 | 对话、编码、推理、翻译 |
| 图像 | 是 | 通过文本/语音 | 描述生成、视觉问答、OCR、文档理解 |
| 音频 | 是 | 是 | 语音识别、音频理解 |
| 视频 | 是 | 通过文本/语音 | 视频描述、活动识别 |
| 语音 | 是(生成) | 是 | 流式 TTS、语音克隆、情感 |
什么是 TMRoPE?
TMRoPE(时间同步多模态旋转位置编码)是一种新颖的位置编码方法,同步不同模态的时间定位。当处理带有伴随音频的视频时,TMRoPE 确保模型理解哪些视觉事件对应于时间上的哪些音频事件。这种时间同步对于理解口语句子的情感语调同时看到说话者在同一时刻的面部表情等任务至关重要。
sequenceDiagram
participant User as 用户
participant Qwen as Qwen2.5-Omni
participant Thinker as Thinker
participant Talker as Talker
User->>Qwen: 显示烹饪教学视频
Qwen->>Thinker: 处理视频帧 + 音频
Thinker->>Thinker: TMRoPE 时间对齐
Thinker->>Thinker: 多模态推理
Thinker->>Talker: 高层级意图
Talker->>Talker: 生成流式语音
Talker-->>User: "首先,切碎洋葱..."
Note over User,Talker: 实时视频理解
User->>Qwen: "烤箱温度设多少?"
Qwen->>Thinker: 音频 + 文本理解
Thinker->>Talker: "烤箱 180 度"
Talker-->>User: "将烤箱设置为摄氏 180 度"Qwen2.5-Omni 如何处理实时视频理解?
Qwen2.5-Omni 通过以可配置的速率(默认 1-2 FPS)提取帧并通过视觉编码器编码每个帧来处理视频。音轨同时编码并通过 TMRoPE 与视频帧对齐。Thinker 合并这些表征并进行时间推理,使模型能够描述正在进行的活动、回答关于特定时间戳视觉内容的问题,并以最小延迟生成实时描述。
安装与使用
Qwen2.5-Omni 可通过 Hugging Face Transformers 库与 ModelScope 生态系统获取。安装需要 PyTorch 2.0+ 与最新版本的 Transformers。该模型支持本地推理以及通过阿里云 API 的部署。对于语音生成,Talker 模块使用神经编解码器解码器,产生高品质 24kHz 音频,具备可配置的语音特征。
基准测试表现
| 基准测试 | Qwen2.5-Omni-72B | GPT-4o | Gemini 1.5 Pro |
|---|---|---|---|
| MMMU(多模态) | 71.2% | 69.1% | 62.2% |
| Video-MME | 65.8% | 63.4% | 58.1% |
| Speech-Bench | 82.4% | 78.6% | 76.2% |
| AudioCaps | 74.5% | 71.2% | 68.9% |
Qwen2.5-Omni 与其他多模态模型相比如何?
Qwen2.5-Omni 在开源模型中独一无二,提供真正的端到端多模态理解与生成。GPT-4o 等竞争模型是专有的且仅限云端。LLaVA 与 InternVL 等开源替代方案处理文本与图像,但缺乏原生音频与语音能力。Qwen2.5-Omni 的 Thinker-Talker 架构还能比在文本生成后使用独立 TTS 模型的串联式系统产生更自然的语音输出,因为 Talker 直接以 Thinker 的多模态理解为条件。
常见问题
什么是 Qwen2.5-Omni? 它是阿里巴巴的端到端多模态 AI 模型,可感知文本、图像、音频与视频,同时生成流式文本与语音,全部在单一统一架构内。
什么是 Thinker-Talker 架构? Thinker 负责多模态理解与推理,而 Talker 根据 Thinker 的表征生成流式语音或文本输出。
有哪些模型大小可供选择? 三种大小:7B、14B 与 72B 参数,全部使用 Thinker-Talker 架构,配备 32K token 上下文窗口。
什么是 TMRoPE? 时间同步多模态旋转位置编码,同步跨模态的时序定位,实现精确的时间对齐多模态理解。
如何安装? 可通过 Hugging Face Transformers 与 ModelScope 获取。需要 PyTorch 2.0+。支持本地与云端推理。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!