AI

GLM-4.5:智譜 AI 的次世代多模態基礎模型

GLM-4.5 是智譜 AI 的次世代多模態基礎模型,具有增強的視覺、語言和推理能力,適用於企業 AI。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
GLM-4.5:智譜 AI 的次世代多模態基礎模型

2025-2026 年基礎模型的演進由兩個趨勢定義:多模態化和效率。只能處理文字的模型已迅速讓位給原生理解圖片、音訊和影片的模型。同時,專家混合(MoE)架構已成為建構既強大又實用於部署的模型的標準方法。智譜 AI 的 GLM-4.5 代表了這些趨勢在中文 AI 生態系統中的匯聚。

GLM-4.5 是智譜 AI 的次世代基礎模型,建立在 GLM-4 架構之上,具有原生多模態理解、顯著改進的推理能力和高效的 MoE 設計。該模型代表了中國迄今為止最雄心勃勃的開源 AI 發布,在中文和英文基準測試上直接與 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 競爭。

從 GLM-4 到 GLM-4.5 的飛躍是巨大的。GLM-4 主要是文字模型,事後添加了一些視覺能力,而 GLM-4.5 是原生多模態的:它將圖片、音訊和影片視為與文字同等的第一類輸入。推理管線已經過全面改造,具備思維鏈能力和結構化工具使用,可與最佳的西方模型相媲美。而 MoE 架構則以極低的推論成本提供 GPT-4 級別的能力。

架構改進

GLM-4 和 GLM-4.5 之間的架構差異顯著:

功能GLM-4GLM-4.5改進
架構密集 Transformer專家混合 (MoE)10 倍效率
參數130B(密集)400B 總計 / 45B 活躍3 倍容量,相同成本
上下文視窗32K Token128K Token4 倍更長上下文
模態文字 + 基本視覺文字 + 圖片 + 音訊 + 影片完整多模態
推理標準 CoT增強 CoT + 結構化工具15% 準確率提升
訓練資料~5T Token~15T Token(多語言)3 倍更多樣化的資料

多模態處理管線

GLM-4.5 透過統一架構處理多種輸入模態:

該架構執行特定模態的編碼,將所有模態投影到共享的潛在空間,透過 MoE Transformer 主幹處理它們,並生成文字輸出。這種統一方法意味著 GLM-4.5 可以在單次前向傳遞中跨模態進行推理:描述圖片的內容同時參考附帶的文字,或轉錄音訊同時分析其與影片幀的關係。

效能基準測試

GLM-4.5 在多個基準測試類別中取得了與領先模型競爭的分數:

基準測試類別GLM-4.5GPT-4oClaude 4 SonnetGemini 2.5 Pro
C-Eval Plus中文知識91.2%84.7%80.3%79.8%
MMLU Pro英文知識87.6%88.1%89.2%87.9%
MMMU(視覺)多模態推理82.3%82.6%80.7%83.1%
HumanEval程式碼生成76.5%79.8%82.3%78.4%
GSM8K數學推理94.7%90.2%91.5%93.1%
AgentBench工具使用75.8%71.2%73.4%72.0%

GLM-4.5 在中文知識基準測試和數學推理上領先,在多模態任務上表現出色,並展現出強大的代理效能。它在程式碼方面落後於 Claude 4 Sonnet,但與 GPT-4o 和 Gemini 2.5 Pro 保持競爭力。

企業應用

該模型的多語言和多模態能力使其特別適合:

  • 需要文件分析的中文企業知識管理
  • 結合文字、圖片和音訊的跨語言客戶服務
  • 針對中文媒體的影片內容分析和摘要
  • 需要中英文雙語支援的教育應用
  • 使用中文醫學術語的醫療影像分析

開始使用

請造訪 GLM-4.5 GitHub 儲存庫 取得模型卡片、推論範例和文件。較小的變體可在 Hugging Face 上取得,用於本地部署,而完整模型則可透過智譜 AI API 存取。

常見問題

什麼是 GLM-4.5?

GLM-4.5 是智譜 AI 的次世代多模態基礎模型,原生處理文字、圖片、音訊和影片輸入,具有增強的推理能力、改進的代理效能,以及比前代 GLM-4 更強大的中英文雙語理解能力。

GLM-4.5 比 GLM-4 增加了哪些新功能?

GLM-4.5 增加了原生多模態輸入(圖片、音訊、影片)、透過思維鏈和函式呼叫改進的推理能力、高達 128K Token 的擴展上下文視窗、增強的 tools 使用,以及提高效率的新型專家混合架構。

GLM-4.5 與 GPT-4o 和 Claude 4 相比如何?

GLM-4.5 在視覺語言任務上與 GPT-4o 具有競爭力,並在中文多模態理解上超越它。在純文字推理方面,Claude 4 仍然領先,但 GLM-4.5 顯著縮小了差距,同時提供更好的雙語表現和更高效的 MoE 架構。

GLM-4.5 中的 MoE 架構是什麼?

GLM-4.5 使用專家混合(MoE)架構,總參數約 4000 億,每個 Token 約啟動 450 億參數。這意味著它擁有 400B 模型的能力,但推論成本與 45B 模型相當,使其比密集的 130B 參數 GLM-4 效率高出許多。

GLM-4.5 是開源的嗎?

智譜 AI 已在寬鬆授權下開源了 GLM-4.5 的較小變體(最高 9B 參數)。完整的 400B MoE 變體可透過智譜 API 和 ModelScope 平台提供給經批准的研究合作夥伴。


延伸閱讀

TAG