2025-2026 年基礎模型的演進由兩個趨勢定義:多模態化和效率。只能處理文字的模型已迅速讓位給原生理解圖片、音訊和影片的模型。同時,專家混合(MoE)架構已成為建構既強大又實用於部署的模型的標準方法。智譜 AI 的 GLM-4.5 代表了這些趨勢在中文 AI 生態系統中的匯聚。
GLM-4.5 是智譜 AI 的次世代基礎模型,建立在 GLM-4 架構之上,具有原生多模態理解、顯著改進的推理能力和高效的 MoE 設計。該模型代表了中國迄今為止最雄心勃勃的開源 AI 發布,在中文和英文基準測試上直接與 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 競爭。
從 GLM-4 到 GLM-4.5 的飛躍是巨大的。GLM-4 主要是文字模型,事後添加了一些視覺能力,而 GLM-4.5 是原生多模態的:它將圖片、音訊和影片視為與文字同等的第一類輸入。推理管線已經過全面改造,具備思維鏈能力和結構化工具使用,可與最佳的西方模型相媲美。而 MoE 架構則以極低的推論成本提供 GPT-4 級別的能力。
架構改進
GLM-4 和 GLM-4.5 之間的架構差異顯著:
| 功能 | GLM-4 | GLM-4.5 | 改進 |
|---|---|---|---|
| 架構 | 密集 Transformer | 專家混合 (MoE) | 10 倍效率 |
| 參數 | 130B(密集) | 400B 總計 / 45B 活躍 | 3 倍容量,相同成本 |
| 上下文視窗 | 32K Token | 128K Token | 4 倍更長上下文 |
| 模態 | 文字 + 基本視覺 | 文字 + 圖片 + 音訊 + 影片 | 完整多模態 |
| 推理 | 標準 CoT | 增強 CoT + 結構化工具 | 15% 準確率提升 |
| 訓練資料 | ~5T Token | ~15T Token(多語言) | 3 倍更多樣化的資料 |
多模態處理管線
GLM-4.5 透過統一架構處理多種輸入模態:
flowchart LR
subgraph Inputs[輸入模態]
Text[文字輸入]
Image[圖片輸入]
Audio[音訊輸入]
Video[影片輸入]
end
subgraph Encoders[模態編碼器]
TE[文字編碼器<br>GLM Tokenizer]
IE[視覺編碼器<br>SigLIP ViT]
AE[音訊編碼器<br>Whisper 風格]
VE[影片編碼器<br>時空編碼]
end
subgraph Projection[跨模態投影]
Proj[學習投影層]
end
subgraph MoE[MoE Transformer 主幹]
MoELayer1[MoE 層 1<br>8 專家,top-2 路由]
MoELayer2[MoE 層 2<br>8 專家,top-2 路由]
MoELayerN[MoE 層 N<br>8 專家,top-2 路由]
end
subgraph Outputs[生成]
Decoder[輸出解碼器]
TextOut[生成的文字]
end
Text --> TE
Image --> IE
Audio --> AE
Video --> VE
TE --> Proj
IE --> Proj
AE --> Proj
VE --> Proj
Proj --> MoELayer1
MoELayer1 --> MoELayer2
MoELayer2 --> MoELayerN
MoELayerN --> Decoder
Decoder --> TextOut該架構執行特定模態的編碼,將所有模態投影到共享的潛在空間,透過 MoE Transformer 主幹處理它們,並生成文字輸出。這種統一方法意味著 GLM-4.5 可以在單次前向傳遞中跨模態進行推理:描述圖片的內容同時參考附帶的文字,或轉錄音訊同時分析其與影片幀的關係。
效能基準測試
GLM-4.5 在多個基準測試類別中取得了與領先模型競爭的分數:
| 基準測試 | 類別 | GLM-4.5 | GPT-4o | Claude 4 Sonnet | Gemini 2.5 Pro |
|---|---|---|---|---|---|
| C-Eval Plus | 中文知識 | 91.2% | 84.7% | 80.3% | 79.8% |
| MMLU Pro | 英文知識 | 87.6% | 88.1% | 89.2% | 87.9% |
| MMMU(視覺) | 多模態推理 | 82.3% | 82.6% | 80.7% | 83.1% |
| HumanEval | 程式碼生成 | 76.5% | 79.8% | 82.3% | 78.4% |
| GSM8K | 數學推理 | 94.7% | 90.2% | 91.5% | 93.1% |
| AgentBench | 工具使用 | 75.8% | 71.2% | 73.4% | 72.0% |
GLM-4.5 在中文知識基準測試和數學推理上領先,在多模態任務上表現出色,並展現出強大的代理效能。它在程式碼方面落後於 Claude 4 Sonnet,但與 GPT-4o 和 Gemini 2.5 Pro 保持競爭力。
企業應用
該模型的多語言和多模態能力使其特別適合:
- 需要文件分析的中文企業知識管理
- 結合文字、圖片和音訊的跨語言客戶服務
- 針對中文媒體的影片內容分析和摘要
- 需要中英文雙語支援的教育應用
- 使用中文醫學術語的醫療影像分析
開始使用
請造訪 GLM-4.5 GitHub 儲存庫 取得模型卡片、推論範例和文件。較小的變體可在 Hugging Face 上取得,用於本地部署,而完整模型則可透過智譜 AI API 存取。
常見問題
什麼是 GLM-4.5?
GLM-4.5 是智譜 AI 的次世代多模態基礎模型,原生處理文字、圖片、音訊和影片輸入,具有增強的推理能力、改進的代理效能,以及比前代 GLM-4 更強大的中英文雙語理解能力。
GLM-4.5 比 GLM-4 增加了哪些新功能?
GLM-4.5 增加了原生多模態輸入(圖片、音訊、影片)、透過思維鏈和函式呼叫改進的推理能力、高達 128K Token 的擴展上下文視窗、增強的 tools 使用,以及提高效率的新型專家混合架構。
GLM-4.5 與 GPT-4o 和 Claude 4 相比如何?
GLM-4.5 在視覺語言任務上與 GPT-4o 具有競爭力,並在中文多模態理解上超越它。在純文字推理方面,Claude 4 仍然領先,但 GLM-4.5 顯著縮小了差距,同時提供更好的雙語表現和更高效的 MoE 架構。
GLM-4.5 中的 MoE 架構是什麼?
GLM-4.5 使用專家混合(MoE)架構,總參數約 4000 億,每個 Token 約啟動 450 億參數。這意味著它擁有 400B 模型的能力,但推論成本與 45B 模型相當,使其比密集的 130B 參數 GLM-4 效率高出許多。
GLM-4.5 是開源的嗎?
智譜 AI 已在寬鬆授權下開源了 GLM-4.5 的較小變體(最高 9B 參數)。完整的 400B MoE 變體可透過智譜 API 和 ModelScope 平台提供給經批准的研究合作夥伴。
延伸閱讀
- GLM-4.5 GitHub 儲存庫 – 原始碼、模型卡片和部署指南
- 智譜 AI 官方網站 – API 存取和企業解決方案
- GLM-4 完整指南 – 深入了解前代 GLM-4 模型
- ModelScope 平台 – 中文 AI 模型託管和分發平台
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!