Tags

多模态

GLM-4.5:智谱 AI 的次世代多模态基础模型
AI

GLM-4.5:智谱 AI 的次世代多模态基础模型

2025-2026 年基础模型的演进由两个趋势定义:多模态化和效率。只能处理文本的模型已迅速让位给原生理解图像、音频和视频的模型。同时,专家混合(MoE)架构已成为构建既强大又实用千部署的模型的标准方法。智谱 AI 的 GLM-4.5 代表了这些趋势在中文 AI 生态系统中的汇聚。

LAVIS:Salesforce 的视觉语言 AI 库
AI

LAVIS:Salesforce 的视觉语言 AI 库

视觉语言 AI——即同时理解图像和文字的模型——是人工智能中发展最快速的领域之一。Salesforce 的 LAVIS(视觉语言智能库)提供了一个统一的框架,用于训练、评估和部署各种视觉语言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

OmniParse:适用于 GenAI 管线的开源通用数据解析工具
AI

OmniParse:适用于 GenAI 管线的开源通用数据解析工具

现代 GenAI 应用程序会消费多种形式的数据——PDF、电子表格、图片、录音和视频文件。建立一个能摄取所有这些格式并产生干净、一致的结构化输出的 RAG 管线,是一项重大的工程挑战。OmniParse 通过提供一个通用数据摄取平台来解决这个问题,该平台可将任何非结构化数据转换为结构化 …

OmniGen2:进阶开源多模态生成模型
AI

OmniGen2:进阶开源多模态生成模型

图像生成领域已变得日益碎片化。不同的模型处理文生图生成、图像编辑和风格转换。用户必须在一个令人困惑的专门工具生态系统中导航,每个工具都有自己的界面、提示格式和能力。OmniGen2 由 VectorSpaceLab 开发,以一个统一的单一架构中处理文生图、指令引导编辑和上下文内生成的多模态 …

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型
AI

Qwen2.5-Omni:阿里巴巴的端到端多模态 AI 模型

Qwen2.5-Omni 是阿里巴巴的旗舰开源多模态 AI 模型,由阿里云的 QwenLM 团队开发。作为一个统一的端到端模型,Qwen2.5-Omni 可以同时感知与理解文本、图像、音频与视频输入,同时产生流式文本与自然语音输出——全部在单一架构内完成。

InternVL:扩展至 241B 参数的开源视觉语言模型系列
AI

InternVL:扩展至 241B 参数的开源视觉语言模型系列

InternVL 是由上海人工智能实验室的 OpenGVLab 开发的一系列开源视觉语言基础模型。InternVL 系列将视觉 Transformer 扩展至 60 亿个参数,并逐步与大型语言模型对齐,建立统一架构,在多项多模态基准测试中达到 GPT-4o 级别的表现。旗舰模型 …

TAG
CATEGORIES