AI

Seed1.5-VL:字节跳动的视觉语言基础模型,在 38 项基准测试中达到 SOTA

Seed1.5-VL 是字节跳动的视觉语言基础模型,采用 20B 参数的 MoE 架构,在 60 个公开基准测试中的 38 项达到业界最佳水平。

Seed1.5-VL:字节跳动的视觉语言基础模型,在 38 项基准测试中达到 SOTA

在快速发展的视觉语言模型领域,一个来自意想不到角落的新重量级选手出现了。由字节跳动 Seed 团队开发的 Seed1.5-VL,在涵盖图像理解、视频理解、文档解析和多图像推理的 60 个公开基准测试中,惊人地在 38 项中达到了业界最佳水平。

基于 200 亿参数的混合专家(MoE)架构,每个 Token 约激活 20 亿参数,Seed1.5-VL 代表了原始能力和计算效率之间的谨慎平衡。它超越了参数量远大于它的模型,同时保持了适合实际应用的推理速度。

该模型的基准测试表现不仅仅在于获胜的数量,更在于它所主导的类别范围。从 OCR 和图表理解到多图像推理和视频理解,Seed1.5-VL 证明了字节跳动的研究团队在多模态领域取得了真正全面的成就。


Seed1.5-VL 背后的架构是什么?

Seed1.5-VL 的架构堪称现代多模态设计的典范,将多项成熟技术组合成一个连贯的系统。

组件描述用途
视觉编码器 1SigLIP(大规模)通用视觉特征提取
视觉编码器 2ViTDet精细细节保留
视觉投影器Q-Former桥接视觉和语言空间
语言骨干MoE LLM(~2B 激活/20B 总计)语言理解与生成
动态分辨率Resolution Upscaling 管道可变输入分辨率处理

双重视觉编码器设计尤其创新。SigLIP 提供广泛的视觉理解——识别物体、场景和整体构图。ViTDet 增加了精细细节,使模型能够读取小文字、区分细微的视觉差异,并理解典型 VLM 会忽略的低级视觉特征。


Seed1.5-VL 在各基准类别中的表现如何?

Seed1.5-VL 基准测试表现的广度是其最令人印象深刻的特点。下表显示了它在主要评估类别中的表现。

基准类别最高分SOTA 状态关键指标
通用 VQAMMBench-EN:87.5SOTA多模态理解
中文 VQAMMBench-CN:85.2SOTA中文多模态问答
OCR 理解OCRBench:88.1SOTA图中文字识别
图表和文档ChartQA:90.0SOTA数据可视化阅读
视频理解Video-MME:69.3SOTA时间视频推理
多图像BLINK:62.5SOTA跨图像比较

ChartQA 的 90.0% 得分尤其值得注意——它证明 Seed1.5-VL 不仅能看到图表,还能真正理解它们,从复杂的可视化中提取准确的数据点和关系。


Seed1.5-VL 如何处理视频理解?

视频理解为 VLM 带来了独特的挑战:模型必须维持跨帧的时间连贯性、追踪物体运动,并理解随着时间展开的动作。

Seed1.5-VL 通过采样关键帧、通过双重视觉编码器管道编码每一帧,然后让 MoE 语言骨干在时间维度上进行推理来处理视频。这种方法在 Video-MME 基准测试中获得了 69.3 的总分,使其无论参数量如何,都位居顶尖视频理解模型之列。


Seed1.5-VL 模型变体如何比较?

字节跳动发布了多种模型配置,以适应不同的部署场景。

变体架构参数(激活)最适合
Seed1.5-VL-8B密集8B (8B)标准推理
Seed1.5-VL-20BMoE20B (~2B)高性能应用
Seed1.5-VL-20B-PlusMoE 增强20B (~2B)最大准确度

20B MoE 变体是旗舰型号,使用其每个 Token 2B 的激活参数来实现有时可与激活参数量 10 倍于它的模型相媲美的结果。「Plus」变体结合了额外的训练数据和扩展的微调,以实现最大的基准测试性能。


Seed1.5-VL 有哪些实际应用?

Seed1.5-VL 的多样化能力可转化为跨多个行业的具体应用。

应用领域使用案例Seed1.5-VL 优势
文档处理自动化表单提取、发票解析优越的 OCR + 版面理解
电子商务产品描述生成、视觉搜索多图像推理用于目录比较
无障碍为视障用户提供图像描述详细场景理解
教育视觉问答、图表解释ChartQA 领先
视频分析内容审核、场景描述时间视频推理

如何部署 Seed1.5-VL?

该模型可通过官方 GitHub 仓库进行本地部署。

git clone https://github.com/ByteDance-Seed/Seed1.5-VL
cd Seed1.5-VL
pip install -r requirements.txt

# 执行推理
python demo.py --model-path Seed1.5-VL-20B

对于生产部署,字节跳动还提供了使用 vLLM 和 TensorRT-LLM 后端优化的推理代码,实现高效的大规模服务。Hugging Face 集成允许使用标准 Transformers API 轻松加载模型。


常见问题

什么是 Seed1.5-VL? Seed1.5-VL 是字节跳动的视觉语言基础模型,采用 20B 参数的混合专家(MoE)架构。它在涵盖图像理解、视频理解、文档解析和多图像推理任务的 60 个公开基准测试中的 38 项达到业界最佳结果。

Seed1.5-VL 的架构是什么? Seed1.5-VL 使用 20B 参数的 MoE(混合专家)架构,每个 Token 约激活 2B 参数。它采用双重视觉编码器设计,结合 SigLIP 处理通用视觉特征和 ViTDet 处理精细细节,通过 Q-Former 投影器连接到 LLM 骨干网络。

Seed1.5-VL 在基准测试上表现如何? Seed1.5-VL 在 60 个公开基准测试中的 38 项达到 SOTA,超越了可比甚至更大尺寸的模型。在特定任务上,它在 ChartQA 获得 90.0%,在 OCRBench 获得 88.1%,在 MMBench-EN 获得 87.5,在 MMBench-CN 获得 85.2%。在视频理解方面,它在 Video-MME 上获得 69.3 的总分。

Seed1.5-VL 与其他 VLM 模型有何不同? Seed1.5-VL 通过多项架构创新脱颖而出:保留精细视觉细节的双重视觉编码器、动态提升输入分辨率的 Resolution Upscaling、原生多图像训练管道,以及每个 Token 仅激活约 2B 个(共 20B)参数的高效 MoE 架构。

Seed1.5-VL 是开源的吗?我该如何访问? 是的,Seed1.5-VL 是开源的。模型权重、推理代码和评估脚本可在 GitHub 上的 ByteDance-Seed 组织下获取。该模型可使用 Hugging Face Transformers 库或官方推理代码库进行部署。


延伸阅读

TAG
CATEGORIES