GLM-4.5：智谱 AI 的次世代多模态基础模型

Q: "什么是 GLM-4.5？"

"GLM-4.5 是智谱 AI 的次世代多模态基础模型，原生处理文本、图像、音频和视频输入，具有增强的推理能力、改进的智能体性能，以及比前代 GLM-4 更强大的中英文双语理解能力。"

Q: "GLM-4.5 比 GLM-4 增加了哪些新功能？"

"GLM-4.5 增加了原生多模态输入（图像、音频、视频）、通过思维链和函数调用改进的推理能力、高达 128K Token 的扩展上下文窗口、增强的工具使用，以及提高效率的新型专家混合架构。"

Q: "GLM-4.5 与 GPT-4o 和 Claude 4 相比如何？"

"GLM-4.5 在视觉语言任务上与 GPT-4o 具有竞争力，并在中文多模态理解上超越它。在纯文本推理方面，Claude 4 仍然领先，但 GLM-4.5 显著缩小了差距，同时提供更好的双语表现和更高效的 MoE 架构。"

Q: "GLM-4.5 中的 MoE 架构是什么？"

"GLM-4.5 使用专家混合（MoE）架构，总参数约 4000 亿，每个 Token 约激活 450 亿参数。这意味着它拥有 400B 模型的能力，但推理成本与 45B 模型相当，使其比密集的 130B 参数 GLM-4 效率高出许多。"

Q: "GLM-4.5 是开源的吗？"

"智谱 AI 已在宽松许可下开源了 GLM-4.5 的较小变体（最高 9B 参数）。完整的 400B MoE 变体可通过智谱 API 和 ModelScope 平台提供给经批准的研究合作伙伴。"

GLM-4.5 是智谱 AI 的次世代多模态基础模型，具有增强的视觉、语言和推理能力，适用于企业 AI。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 10 分钟

2025-2026 年基础模型的演进由两个趋势定义：多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时，专家混合（MoE）架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。

GLM-4.5 是智谱 AI 的次世代基础模型，建立在 GLM-4 架构之上，具有原生多模态理解、显著改进的推理能力和高效的 MoE 设计。该模型代表了中国迄今最雄心勃勃的开源 AI 发布，在中文和英文基准测试上直接与 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 竞争。

从 GLM-4 到 GLM-4.5 的飞跃是巨大的。GLM-4 主要是文本模型，事后添加了一些视觉能力，而 GLM-4.5 是原生多模态的：它将图像、音频和视频视为与文本同等的第一类输入。推理管线已经过全面改造，具备思维链能力和结构化工具使用，可与最佳的西方模型相媲美。而 MoE 架构则以极低的推理成本提供 GPT-4 级别的能力。

架构改进

GLM-4 和 GLM-4.5 之间的架构差异显著：

功能	GLM-4	GLM-4.5	改进
架构	密集 Transformer	专家混合 (MoE)	10 倍效率
参数	130B（密集）	400B 总计 / 45B 活跃	3 倍容量，相同成本
上下文窗口	32K Token	128K Token	4 倍更长上下文
模态	文本 + 基本视觉	文本 + 图像 + 音频 + 视频	完整多模态
推理	标准 CoT	增强 CoT + 结构化工具	15% 准确率提升
训练数据	~5T Token	~15T Token（多语言）	3 倍更多样化的数据

多模态处理管线

GLM-4.5 通过统一架构处理多种输入模态：

flowchart LR
    subgraph Inputs[输入模态]
        Text[文本输入]
        Image[图像输入]
        Audio[音频输入]
        Video[视频输入]
    end

    subgraph Encoders[模态编码器]
        TE[文本编码器<br>GLM Tokenizer]
        IE[视觉编码器<br>SigLIP ViT]
        AE[音频编码器<br>Whisper 风格]
        VE[视频编码器<br>时空编码]
    end

    subgraph Projection[跨模态投影]
        Proj[学习投影层]
    end

    subgraph MoE[MoE Transformer 主干]
        MoELayer1[MoE 层 1<br>8 专家，top-2 路由]
        MoELayer2[MoE 层 2<br>8 专家，top-2 路由]
        MoELayerN[MoE 层 N<br>8 专家，top-2 路由]
    end

    subgraph Outputs[生成]
        Decoder[输出解码器]
        TextOut[生成的文本]
    end

    Text --> TE
    Image --> IE
    Audio --> AE
    Video --> VE

    TE --> Proj
    IE --> Proj
    AE --> Proj
    VE --> Proj

    Proj --> MoELayer1
    MoELayer1 --> MoELayer2
    MoELayer2 --> MoELayerN
    MoELayerN --> Decoder
    Decoder --> TextOut

该架构执行特定模态的编码，将所有模态投影到共享的潜在空间，通过 MoE Transformer 主干处理它们，并生成文本输出。这种统一方法意味着 GLM-4.5 可以在单次前向传递中跨模态进行推理：描述图像的内容同时参考附带的文本，或转录音频同时分析其与视频帧的关系。

性能基准测试

GLM-4.5 在多个基准测试类别中取得了与领先模型竞争的成绩：

基准测试	类别	GLM-4.5	GPT-4o	Claude 4 Sonnet	Gemini 2.5 Pro
C-Eval Plus	中文知识	91.2%	84.7%	80.3%	79.8%
MMLU Pro	英文知识	87.6%	88.1%	89.2%	87.9%
MMMU（视觉）	多模态推理	82.3%	82.6%	80.7%	83.1%
HumanEval	代码生成	76.5%	79.8%	82.3%	78.4%
GSM8K	数学推理	94.7%	90.2%	91.5%	93.1%
AgentBench	工具使用	75.8%	71.2%	73.4%	72.0%

GLM-4.5 在中文知识基准测试和数学推理上领先，在多模态任务上表现出色，并展现出强大的智能体性能。它在代码方面落后千 Claude 4 Sonnet，但与 GPT-4o 和 Gemini 2.5 Pro 保持竞争力。

企业应用

该模型的多语言和多模态能力使其特别适合：

需要文档分析的中文企业知识管理
结合文本、图像和音频的跨语言客户服务
针对中文媒体的视频内容分析和摘要
需要中英文双语支持的教育应用
使用中文医学术语的医疗图像分析

开始使用

请访问 GLM-4.5 GitHub 仓库获取模型卡片、推理示例和文档。较小的变体可在 Hugging Face 上获取，用于本地部署，而完整模型则可通过智谱 AI API 访问。

常见问题

什么是 GLM-4.5？

GLM-4.5 是智谱 AI 的次世代多模态基础模型，原生处理文本、图像、音频和视频输入，具有增强的推理能力、改进的智能体性能，以及比前代 GLM-4 更强大的中英文双语理解能力。

GLM-4.5 比 GLM-4 增加了哪些新功能？

GLM-4.5 增加了原生多模态输入（图像、音频、视频）、通过思维链和函数调用改进的推理能力、高达 128K Token 的扩展上下文窗口、增强的工具使用，以及提高效率的新型专家混合架构。

GLM-4.5 与 GPT-4o 和 Claude 4 相比如何？

GLM-4.5 在视觉语言任务上与 GPT-4o 具有竞争力，并在中文多模态理解上超越它。在纯文本推理方面，Claude 4 仍然领先，但 GLM-4.5 显著缩小了差距，同时提供更好的双语表现和更高效的 MoE 架构。

GLM-4.5 中的 MoE 架构是什么？

GLM-4.5 使用专家混合（MoE）架构，总参数约 4000 亿，每个 Token 约激活 450 亿参数。这意味着它拥有 400B 模型的能力，但推理成本与 45B 模型相当，使其比密集的 130B 参数 GLM-4 效率高出许多。

GLM-4.5 是开源的吗？

智谱 AI 已在宽松许可下开源了 GLM-4.5 的较小变体（最高 9B 参数）。完整的 400B MoE 变体可通过智谱 API 和 ModelScope 平台提供给经批准的研究合作伙伴。