多模态

AI May 05, 2026

GLM-4.5：智谱 AI 的次世代多模态基础模型

2025-2026 年基础模型的演进由两个趋势定义：多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时，专家混合（MoE）架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。

AI May 05, 2026

视觉语言 AI——即同时理解图像和文字的模型——是人工智能中发展最快速的领域之一。Salesforce 的 LAVIS（视觉语言智能库）提供了一个统一的框架，用于训练、评估和部署各种视觉语言模型，包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

AI May 04, 2026

现代 GenAI 应用程序会消费多种形式的数据——PDF、电子表格、图片、录音和视频文件。建立一个能摄取所有这些格式并产生干净、一致的结构化输出的 RAG 管线，是一项重大的工程挑战。OmniParse 通过提供一个通用数据摄取平台来解决这个问题，该平台可将任何非结构化数据转换为结构化 …

AI May 04, 2026

图像生成领域已变得日益碎片化。不同的模型处理文生图生成、图像编辑和风格转换。用户必须在一个令人困惑的专门工具生态系统中导航，每个工具都有自己的界面、提示格式和能力。OmniGen2 由 VectorSpaceLab 开发，以一个统一的单一架构中处理文生图、指令引导编辑和上下文内生成的多模态 …

AI May 03, 2026

Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型，由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型，Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入，同时产生流式文本与自然语音输出——全部在单一架构内完成。

AI May 03, 2026

InternVL 是由上海人工智能实验室的 OpenGVLab 开发的一系列开源视觉语言基础模型。InternVL 系列将视觉 Transformer 扩展至 60 亿个参数，并逐步与大型语言模型对齐，建立统一架构，在多项多模态基准测试中达到 GPT-4o 级别的表现。旗舰模型 …