2025-2026 年基础模型的演进由两个趋势定义:多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时,专家混合(MoE)架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。
GLM-4.5 是智谱 AI 的次世代基础模型,建立在 GLM-4 架构之上,具有原生多模态理解、显著改进的推理能力和高效的 MoE 设计。该模型代表了中国迄今最雄心勃勃的开源 AI 发布,在中文和英文基准测试上直接与 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 竞争。
从 GLM-4 到 GLM-4.5 的飞跃是巨大的。GLM-4 主要是文本模型,事后添加了一些视觉能力,而 GLM-4.5 是原生多模态的:它将图像、音频和视频视为与文本同等的第一类输入。推理管线已经过全面改造,具备思维链能力和结构化工具使用,可与最佳的西方模型相媲美。而 MoE 架构则以极低的推理成本提供 GPT-4 级别的能力。
架构改进
GLM-4 和 GLM-4.5 之间的架构差异显著:
| 功能 | GLM-4 | GLM-4.5 | 改进 |
|---|---|---|---|
| 架构 | 密集 Transformer | 专家混合 (MoE) | 10 倍效率 |
| 参数 | 130B(密集) | 400B 总计 / 45B 活跃 | 3 倍容量,相同成本 |
| 上下文窗口 | 32K Token | 128K Token | 4 倍更长上下文 |
| 模态 | 文本 + 基本视觉 | 文本 + 图像 + 音频 + 视频 | 完整多模态 |
| 推理 | 标准 CoT | 增强 CoT + 结构化工具 | 15% 准确率提升 |
| 训练数据 | ~5T Token | ~15T Token(多语言) | 3 倍更多样化的数据 |
多模态处理管线
GLM-4.5 通过统一架构处理多种输入模态:
flowchart LR
subgraph Inputs[输入模态]
Text[文本输入]
Image[图像输入]
Audio[音频输入]
Video[视频输入]
end
subgraph Encoders[模态编码器]
TE[文本编码器<br>GLM Tokenizer]
IE[视觉编码器<br>SigLIP ViT]
AE[音频编码器<br>Whisper 风格]
VE[视频编码器<br>时空编码]
end
subgraph Projection[跨模态投影]
Proj[学习投影层]
end
subgraph MoE[MoE Transformer 主干]
MoELayer1[MoE 层 1<br>8 专家,top-2 路由]
MoELayer2[MoE 层 2<br>8 专家,top-2 路由]
MoELayerN[MoE 层 N<br>8 专家,top-2 路由]
end
subgraph Outputs[生成]
Decoder[输出解码器]
TextOut[生成的文本]
end
Text --> TE
Image --> IE
Audio --> AE
Video --> VE
TE --> Proj
IE --> Proj
AE --> Proj
VE --> Proj
Proj --> MoELayer1
MoELayer1 --> MoELayer2
MoELayer2 --> MoELayerN
MoELayerN --> Decoder
Decoder --> TextOut该架构执行特定模态的编码,将所有模态投影到共享的潜在空间,通过 MoE Transformer 主干处理它们,并生成文本输出。这种统一方法意味着 GLM-4.5 可以在单次前向传递中跨模态进行推理:描述图像的内容同时参考附带的文本,或转录音频同时分析其与视频帧的关系。
性能基准测试
GLM-4.5 在多个基准测试类别中取得了与领先模型竞争的成绩:
| 基准测试 | 类别 | GLM-4.5 | GPT-4o | Claude 4 Sonnet | Gemini 2.5 Pro |
|---|---|---|---|---|---|
| C-Eval Plus | 中文知识 | 91.2% | 84.7% | 80.3% | 79.8% |
| MMLU Pro | 英文知识 | 87.6% | 88.1% | 89.2% | 87.9% |
| MMMU(视觉) | 多模态推理 | 82.3% | 82.6% | 80.7% | 83.1% |
| HumanEval | 代码生成 | 76.5% | 79.8% | 82.3% | 78.4% |
| GSM8K | 数学推理 | 94.7% | 90.2% | 91.5% | 93.1% |
| AgentBench | 工具使用 | 75.8% | 71.2% | 73.4% | 72.0% |
GLM-4.5 在中文知识基准测试和数学推理上领先,在多模态任务上表现出色,并展现出强大的智能体性能。它在代码方面落后千 Claude 4 Sonnet,但与 GPT-4o 和 Gemini 2.5 Pro 保持竞争力。
企业应用
该模型的多语言和多模态能力使其特别适合:
- 需要文档分析的中文企业知识管理
- 结合文本、图像和音频的跨语言客户服务
- 针对中文媒体的视频内容分析和摘要
- 需要中英文双语支持的教育应用
- 使用中文医学术语的医疗图像分析
开始使用
请访问 GLM-4.5 GitHub 仓库 获取模型卡片、推理示例和文档。较小的变体可在 Hugging Face 上获取,用于本地部署,而完整模型则可通过智谱 AI API 访问。
常见问题
什么是 GLM-4.5?
GLM-4.5 是智谱 AI 的次世代多模态基础模型,原生处理文本、图像、音频和视频输入,具有增强的推理能力、改进的智能体性能,以及比前代 GLM-4 更强大的中英文双语理解能力。
GLM-4.5 比 GLM-4 增加了哪些新功能?
GLM-4.5 增加了原生多模态输入(图像、音频、视频)、通过思维链和函数调用改进的推理能力、高达 128K Token 的扩展上下文窗口、增强的工具使用,以及提高效率的新型专家混合架构。
GLM-4.5 与 GPT-4o 和 Claude 4 相比如何?
GLM-4.5 在视觉语言任务上与 GPT-4o 具有竞争力,并在中文多模态理解上超越它。在纯文本推理方面,Claude 4 仍然领先,但 GLM-4.5 显著缩小了差距,同时提供更好的双语表现和更高效的 MoE 架构。
GLM-4.5 中的 MoE 架构是什么?
GLM-4.5 使用专家混合(MoE)架构,总参数约 4000 亿,每个 Token 约激活 450 亿参数。这意味着它拥有 400B 模型的能力,但推理成本与 45B 模型相当,使其比密集的 130B 参数 GLM-4 效率高出许多。
GLM-4.5 是开源的吗?
智谱 AI 已在宽松许可下开源了 GLM-4.5 的较小变体(最高 9B 参数)。完整的 400B MoE 变体可通过智谱 API 和 ModelScope 平台提供给经批准的研究合作伙伴。
延伸阅读
- GLM-4.5 GitHub 仓库 – 源代码、模型卡片和部署指南
- 智谱 AI 官方网站 – API 访问和企业解决方案
- GLM-4 完整指南 – 深入了解前代 GLM-4 模型
- ModelScope 平台 – 中文 AI 模型托管和分发平台
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!