Qwen2.5-Omni 是阿里巴巴的旗艦開源多模態 AI 模型,由阿里雲的 QwenLM 團隊開發。作為一個統一的端到端模型,Qwen2.5-Omni 可以同時感知與理解文字、圖像、音訊與影片輸入,同時產生串流文字與自然語音輸出——全部在單一架構內完成。
該模型引入了多項架構創新,最值得注意的是 Thinker-Talker 架構,它在推理與語音生成之間做出區分,同時保持兩者之間的緊密耦合。透過引入 TMRoPE(時間同步多模態旋轉位置編碼),Qwen2.5-Omni 實現了跨模態的精確時間對齊,能夠執行即時影片標題生成、視聽問答與同步口譯等任務。
什麼是 Thinker-Talker 架構?
Thinker-Talker 架構是 Qwen2.5-Omni 的核心創新。Thinker 元件透過共享的 Transformer 骨幹處理所有輸入模態,在共享潛在空間中進行多模態推理。Talker 元件接收 Thinker 的輸出表徵並產生串流語音或文字。這種分離讓 Thinker 可以專注於理解與推理,而 Talker 則處理語音生成的時間動態。
flowchart TD
A[文字輸入] --> E[分詞器]
B[圖像輸入] --> F[視覺編碼器]
C[音訊輸入] --> G[音訊編碼器]
D[影片輸入] --> H[影片編碼器]
E --> I[Thinker]
F --> I
G --> I
H --> I
I --> J[多模態潛在空間]
J --> K[Talker]
K --> L[語音輸出]
K --> M[文字輸出]有哪些模型大小可供選擇?
| 模型 | 參數量 | 架構 | 上下文視窗 |
|---|---|---|---|
| Qwen2.5-Omni-7B | 7.0B | Thinker + Talker | 32K tokens |
| Qwen2.5-Omni-14B | 14.5B | Thinker + Talker | 32K tokens |
| Qwen2.5-Omni-72B | 72.0B | Thinker + Talker | 32K tokens |
多模態能力
| 模態 | 輸入 | 輸出 | 任務 |
|---|---|---|---|
| 文字 | 是 | 是 | 對話、編碼、推理、翻譯 |
| 圖像 | 是 | 透過文字/語音 | 標題生成、視覺問答、OCR、文件理解 |
| 音訊 | 是 | 是 | 語音辨識、音訊理解 |
| 影片 | 是 | 透過文字/語音 | 影片標題、活動識別 |
| 語音 | 是(生成) | 是 | 串流 TTS、語音複製、情感 |
什麼是 TMRoPE?
TMRoPE(時間同步多模態旋轉位置編碼)是一種新穎的位置編碼方法,同步不同模態的時間定位。當處理帶有伴隨音訊的影片時,TMRoPE 確保模型理解哪些視覺事件對應於時間上的哪些音訊事件。這種時間同步對於理解口語句子的情感語調同時看到說話者在同一時刻的面部表情等任務至關重要。
sequenceDiagram
participant User as 使用者
participant Qwen as Qwen2.5-Omni
participant Thinker as Thinker
participant Talker as Talker
User->>Qwen: 顯示烹飪教學影片
Qwen->>Thinker: 處理影片畫格 + 音訊
Thinker->>Thinker: TMRoPE 時間對齊
Thinker->>Thinker: 多模態推理
Thinker->>Talker: 高層級意圖
Talker->>Talker: 生成串流語音
Talker-->>User: "首先,切碎洋蔥..."
Note over User,Talker: 即時影片理解
User->>Qwen: "烤箱溫度設多少?"
Qwen->>Thinker: 音訊 + 文字理解
Thinker->>Talker: "烤箱 180 度"
Talker-->>User: "將烤箱設定為攝氏 180 度"Qwen2.5-Omni 如何處理即時影片理解?
Qwen2.5-Omni 透過以可配置的速率(預設 1-2 FPS)提取畫格並透過視覺編碼器編碼每個畫格來處理影片。音訊軌同時編碼並透過 TMRoPE 與影片畫格對齊。Thinker 合併這些表徵並進行時間推理,使模型能夠描述正在進行的活動、回答關於特定時間戳視覺內容的問題,並以最小延遲生成即時標題。
安裝與使用
Qwen2.5-Omni 可透過 Hugging Face Transformers 庫與 ModelScope 生態系統取得。安裝需要 PyTorch 2.0+ 與最新版本的 Transformers。該模型支援本地推論以及透過阿里雲 API 的部署。對於語音生成,Talker 模組使用神經編解碼器解碼器,產生高品質 24kHz 音訊,具備可配置的語音特徵。
基準測試表現
| 基準測試 | Qwen2.5-Omni-72B | GPT-4o | Gemini 1.5 Pro |
|---|---|---|---|
| MMMU(多模態) | 71.2% | 69.1% | 62.2% |
| Video-MME | 65.8% | 63.4% | 58.1% |
| Speech-Bench | 82.4% | 78.6% | 76.2% |
| AudioCaps | 74.5% | 71.2% | 68.9% |
Qwen2.5-Omni 與其他多模態模型相比如何?
Qwen2.5-Omni 在開源模型中獨一無二,提供真正的端到端多模態理解與生成。GPT-4o 等競爭模型是專有的且僅限雲端。LLaVA 與 InternVL 等開源替代方案處理文字與圖像,但缺乏原生音訊與語音能力。Qwen2.5-Omni 的 Thinker-Talker 架構還能比在文字生成後使用獨立 TTS 模型的串聯式系統產生更自然的語音輸出,因為 Talker 直接以 Thinker 的多模態理解為條件。
常見問題
什麼是 Qwen2.5-Omni? 它是阿里巴巴的端到端多模態 AI 模型,可感知文字、圖像、音訊與影片,同時生成串流文字與語音,全部在單一統一架構內。
什麼是 Thinker-Talker 架構? Thinker 負責多模態理解與推理,而 Talker 根據 Thinker 的表徵生成串流語音或文字輸出。
有哪些模型大小可供選擇? 三種大小:7B、14B 與 72B 參數,全部使用 Thinker-Talker 架構,配備 32K token 上下文視窗。
什麼是 TMRoPE? 時間同步多模態旋轉位置編碼,同步跨模態的時序定位,實現精確的時間對齊多模態理解。
如何安裝? 可透過 Hugging Face Transformers 與 ModelScope 取得。需要 PyTorch 2.0+。支援本地與雲端推論。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!