AI

GLM-4.5:智谱 AI 的次世代多模态基础模型

GLM-4.5 是智谱 AI 的次世代多模态基础模型,具有增强的视觉、语言和推理能力,适用于企业 AI。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
GLM-4.5:智谱 AI 的次世代多模态基础模型

2025-2026 年基础模型的演进由两个趋势定义:多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时,专家混合(MoE)架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。

GLM-4.5 是智谱 AI 的次世代基础模型,建立在 GLM-4 架构之上,具有原生多模态理解、显著改进的推理能力和高效的 MoE 设计。该模型代表了中国迄今最雄心勃勃的开源 AI 发布,在中文和英文基准测试上直接与 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 竞争。

从 GLM-4 到 GLM-4.5 的飞跃是巨大的。GLM-4 主要是文本模型,事后添加了一些视觉能力,而 GLM-4.5 是原生多模态的:它将图像、音频和视频视为与文本同等的第一类输入。推理管线已经过全面改造,具备思维链能力和结构化工具使用,可与最佳的西方模型相媲美。而 MoE 架构则以极低的推理成本提供 GPT-4 级别的能力。

架构改进

GLM-4 和 GLM-4.5 之间的架构差异显著:

功能GLM-4GLM-4.5改进
架构密集 Transformer专家混合 (MoE)10 倍效率
参数130B(密集)400B 总计 / 45B 活跃3 倍容量,相同成本
上下文窗口32K Token128K Token4 倍更长上下文
模态文本 + 基本视觉文本 + 图像 + 音频 + 视频完整多模态
推理标准 CoT增强 CoT + 结构化工具15% 准确率提升
训练数据~5T Token~15T Token(多语言)3 倍更多样化的数据

多模态处理管线

GLM-4.5 通过统一架构处理多种输入模态:

该架构执行特定模态的编码,将所有模态投影到共享的潜在空间,通过 MoE Transformer 主干处理它们,并生成文本输出。这种统一方法意味着 GLM-4.5 可以在单次前向传递中跨模态进行推理:描述图像的内容同时参考附带的文本,或转录音频同时分析其与视频帧的关系。

性能基准测试

GLM-4.5 在多个基准测试类别中取得了与领先模型竞争的成绩:

基准测试类别GLM-4.5GPT-4oClaude 4 SonnetGemini 2.5 Pro
C-Eval Plus中文知识91.2%84.7%80.3%79.8%
MMLU Pro英文知识87.6%88.1%89.2%87.9%
MMMU(视觉)多模态推理82.3%82.6%80.7%83.1%
HumanEval代码生成76.5%79.8%82.3%78.4%
GSM8K数学推理94.7%90.2%91.5%93.1%
AgentBench工具使用75.8%71.2%73.4%72.0%

GLM-4.5 在中文知识基准测试和数学推理上领先,在多模态任务上表现出色,并展现出强大的智能体性能。它在代码方面落后千 Claude 4 Sonnet,但与 GPT-4o 和 Gemini 2.5 Pro 保持竞争力。

企业应用

该模型的多语言和多模态能力使其特别适合:

  • 需要文档分析的中文企业知识管理
  • 结合文本、图像和音频的跨语言客户服务
  • 针对中文媒体的视频内容分析和摘要
  • 需要中英文双语支持的教育应用
  • 使用中文医学术语的医疗图像分析

开始使用

请访问 GLM-4.5 GitHub 仓库 获取模型卡片、推理示例和文档。较小的变体可在 Hugging Face 上获取,用于本地部署,而完整模型则可通过智谱 AI API 访问。

常见问题

什么是 GLM-4.5?

GLM-4.5 是智谱 AI 的次世代多模态基础模型,原生处理文本、图像、音频和视频输入,具有增强的推理能力、改进的智能体性能,以及比前代 GLM-4 更强大的中英文双语理解能力。

GLM-4.5 比 GLM-4 增加了哪些新功能?

GLM-4.5 增加了原生多模态输入(图像、音频、视频)、通过思维链和函数调用改进的推理能力、高达 128K Token 的扩展上下文窗口、增强的工具使用,以及提高效率的新型专家混合架构。

GLM-4.5 与 GPT-4o 和 Claude 4 相比如何?

GLM-4.5 在视觉语言任务上与 GPT-4o 具有竞争力,并在中文多模态理解上超越它。在纯文本推理方面,Claude 4 仍然领先,但 GLM-4.5 显著缩小了差距,同时提供更好的双语表现和更高效的 MoE 架构。

GLM-4.5 中的 MoE 架构是什么?

GLM-4.5 使用专家混合(MoE)架构,总参数约 4000 亿,每个 Token 约激活 450 亿参数。这意味着它拥有 400B 模型的能力,但推理成本与 45B 模型相当,使其比密集的 130B 参数 GLM-4 效率高出许多。

GLM-4.5 是开源的吗?

智谱 AI 已在宽松许可下开源了 GLM-4.5 的较小变体(最高 9B 参数)。完整的 400B MoE 变体可通过智谱 API 和 ModelScope 平台提供给经批准的研究合作伙伴。


延伸阅读

TAG
CATEGORIES