GLM-4.5：智譜 AI 的次世代多模態基礎模型

Q: "什麼是 GLM-4.5？"

"GLM-4.5 是智譜 AI 的次世代多模態基礎模型，原生處理文字、圖片、音訊和影片輸入，具有增強的推理能力、改進的代理效能，以及比前代 GLM-4 更強大的中英文雙語理解能力。"

Q: "GLM-4.5 比 GLM-4 增加了哪些新功能？"

"GLM-4.5 增加了原生多模態輸入（圖片、音訊、影片）、透過思維鏈和函式呼叫改進的推理能力、高達 128K Token 的擴展上下文視窗、增強的 tools 使用，以及提高效率的新型專家混合架構。"

Q: "GLM-4.5 與 GPT-4o 和 Claude 4 相比如何？"

"GLM-4.5 在視覺語言任務上與 GPT-4o 具有競爭力，並在中文多模態理解上超越它。在純文字推理方面，Claude 4 仍然領先，但 GLM-4.5 顯著縮小了差距，同時提供更好的雙語表現和更高效的 MoE 架構。"

Q: "GLM-4.5 中的 MoE 架構是什麼？"

"GLM-4.5 使用專家混合（MoE）架構，總參數約 4000 億，每個 Token 約啟動 450 億參數。這意味著它擁有 400B 模型的能力，但推論成本與 45B 模型相當，使其比密集的 130B 參數 GLM-4 效率高出許多。"

Q: "GLM-4.5 是開源的嗎？"

"智譜 AI 已在寬鬆授權下開源了 GLM-4.5 的較小變體（最高 9B 參數）。完整的 400B MoE 變體可透過智譜 API 和 ModelScope 平台提供給經批准的研究合作夥伴。"

GLM-4.5 是智譜 AI 的次世代多模態基礎模型，具有增強的視覺、語言和推理能力，適用於企業 AI。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 05, 2026 閱讀 10 分鐘

2025-2026 年基礎模型的演進由兩個趨勢定義：多模態化和效率。只能處理文字的模型已迅速讓位給原生理解圖片、音訊和影片的模型。同時，專家混合（MoE）架構已成為建構既強大又實用於部署的模型的標準方法。智譜 AI 的 GLM-4.5 代表了這些趨勢在中文 AI 生態系統中的匯聚。

GLM-4.5 是智譜 AI 的次世代基礎模型，建立在 GLM-4 架構之上，具有原生多模態理解、顯著改進的推理能力和高效的 MoE 設計。該模型代表了中國迄今為止最雄心勃勃的開源 AI 發布，在中文和英文基準測試上直接與 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 競爭。

從 GLM-4 到 GLM-4.5 的飛躍是巨大的。GLM-4 主要是文字模型，事後添加了一些視覺能力，而 GLM-4.5 是原生多模態的：它將圖片、音訊和影片視為與文字同等的第一類輸入。推理管線已經過全面改造，具備思維鏈能力和結構化工具使用，可與最佳的西方模型相媲美。而 MoE 架構則以極低的推論成本提供 GPT-4 級別的能力。

架構改進

GLM-4 和 GLM-4.5 之間的架構差異顯著：

功能	GLM-4	GLM-4.5	改進
架構	密集 Transformer	專家混合 (MoE)	10 倍效率
參數	130B（密集）	400B 總計 / 45B 活躍	3 倍容量，相同成本
上下文視窗	32K Token	128K Token	4 倍更長上下文
模態	文字 + 基本視覺	文字 + 圖片 + 音訊 + 影片	完整多模態
推理	標準 CoT	增強 CoT + 結構化工具	15% 準確率提升
訓練資料	~5T Token	~15T Token（多語言）	3 倍更多樣化的資料

多模態處理管線

GLM-4.5 透過統一架構處理多種輸入模態：

flowchart LR
    subgraph Inputs[輸入模態]
        Text[文字輸入]
        Image[圖片輸入]
        Audio[音訊輸入]
        Video[影片輸入]
    end

    subgraph Encoders[模態編碼器]
        TE[文字編碼器<br>GLM Tokenizer]
        IE[視覺編碼器<br>SigLIP ViT]
        AE[音訊編碼器<br>Whisper 風格]
        VE[影片編碼器<br>時空編碼]
    end

    subgraph Projection[跨模態投影]
        Proj[學習投影層]
    end

    subgraph MoE[MoE Transformer 主幹]
        MoELayer1[MoE 層 1<br>8 專家，top-2 路由]
        MoELayer2[MoE 層 2<br>8 專家，top-2 路由]
        MoELayerN[MoE 層 N<br>8 專家，top-2 路由]
    end

    subgraph Outputs[生成]
        Decoder[輸出解碼器]
        TextOut[生成的文字]
    end

    Text --> TE
    Image --> IE
    Audio --> AE
    Video --> VE

    TE --> Proj
    IE --> Proj
    AE --> Proj
    VE --> Proj

    Proj --> MoELayer1
    MoELayer1 --> MoELayer2
    MoELayer2 --> MoELayerN
    MoELayerN --> Decoder
    Decoder --> TextOut

該架構執行特定模態的編碼，將所有模態投影到共享的潛在空間，透過 MoE Transformer 主幹處理它們，並生成文字輸出。這種統一方法意味著 GLM-4.5 可以在單次前向傳遞中跨模態進行推理：描述圖片的內容同時參考附帶的文字，或轉錄音訊同時分析其與影片幀的關係。

效能基準測試

GLM-4.5 在多個基準測試類別中取得了與領先模型競爭的分數：

基準測試	類別	GLM-4.5	GPT-4o	Claude 4 Sonnet	Gemini 2.5 Pro
C-Eval Plus	中文知識	91.2%	84.7%	80.3%	79.8%
MMLU Pro	英文知識	87.6%	88.1%	89.2%	87.9%
MMMU（視覺）	多模態推理	82.3%	82.6%	80.7%	83.1%
HumanEval	程式碼生成	76.5%	79.8%	82.3%	78.4%
GSM8K	數學推理	94.7%	90.2%	91.5%	93.1%
AgentBench	工具使用	75.8%	71.2%	73.4%	72.0%

GLM-4.5 在中文知識基準測試和數學推理上領先，在多模態任務上表現出色，並展現出強大的代理效能。它在程式碼方面落後於 Claude 4 Sonnet，但與 GPT-4o 和 Gemini 2.5 Pro 保持競爭力。

企業應用

該模型的多語言和多模態能力使其特別適合：

需要文件分析的中文企業知識管理
結合文字、圖片和音訊的跨語言客戶服務
針對中文媒體的影片內容分析和摘要
需要中英文雙語支援的教育應用
使用中文醫學術語的醫療影像分析

開始使用

請造訪 GLM-4.5 GitHub 儲存庫取得模型卡片、推論範例和文件。較小的變體可在 Hugging Face 上取得，用於本地部署，而完整模型則可透過智譜 AI API 存取。

常見問題

什麼是 GLM-4.5？

GLM-4.5 是智譜 AI 的次世代多模態基礎模型，原生處理文字、圖片、音訊和影片輸入，具有增強的推理能力、改進的代理效能，以及比前代 GLM-4 更強大的中英文雙語理解能力。

GLM-4.5 比 GLM-4 增加了哪些新功能？

GLM-4.5 增加了原生多模態輸入（圖片、音訊、影片）、透過思維鏈和函式呼叫改進的推理能力、高達 128K Token 的擴展上下文視窗、增強的 tools 使用，以及提高效率的新型專家混合架構。

GLM-4.5 與 GPT-4o 和 Claude 4 相比如何？

GLM-4.5 在視覺語言任務上與 GPT-4o 具有競爭力，並在中文多模態理解上超越它。在純文字推理方面，Claude 4 仍然領先，但 GLM-4.5 顯著縮小了差距，同時提供更好的雙語表現和更高效的 MoE 架構。

GLM-4.5 中的 MoE 架構是什麼？

GLM-4.5 使用專家混合（MoE）架構，總參數約 4000 億，每個 Token 約啟動 450 億參數。這意味著它擁有 400B 模型的能力，但推論成本與 45B 模型相當，使其比密集的 130B 參數 GLM-4 效率高出許多。

GLM-4.5 是開源的嗎？

智譜 AI 已在寬鬆授權下開源了 GLM-4.5 的較小變體（最高 9B 參數）。完整的 400B MoE 變體可透過智譜 API 和 ModelScope 平台提供給經批准的研究合作夥伴。