Seed1.5-VL：字节跳动的视觉语言基础模型，在 38 项基准测试中达到 SOTA

Q: "什么是 Seed1.5-VL？"

"Seed1.5-VL 是字节跳动的视觉语言基础模型，采用 20B 参数的混合专家（MoE）架构。它在涵盖图像理解、视频理解、文档解析和多图像推理任务的 60 个公开基准测试中的 38 项达到业界最佳结果。"

Q: "Seed1.5-VL 的架构是什么？"

"Seed1.5-VL 使用 20B 参数的 MoE（混合专家）架构，每个 Token 约激活 2B 参数，使其相对于总参数量而言非常高效。它采用双重视觉编码器设计，结合 SigLIP 处理通用视觉特征和 ViTDet 处理精细细节，通过 Q-Former 投影器连接到 LLM 骨干网络。"

Q: "Seed1.5-VL 在基准测试上表现如何？"

"Seed1.5-VL 在 60 个公开基准测试中的 38 项达到 SOTA，超越了可比甚至更大尺寸的模型。在特定任务上，它在 ChartQA 获得 90.0%，在 OCRBench 获得 88.1%，在 MMBench-EN 获得 87.5，在 MMBench-CN 获得 85.2%。在视频理解方面，它在 Video-MME 上获得 69.3 的总分。"

Q: "Seed1.5-VL 与其他 VLM 模型有何不同？"

"Seed1.5-VL 通过多项架构创新脱颖而出：保留精细视觉细节的双重视觉编码器、动态提升输入分辨率的 Resolution Upscaling、原生多图像训练管道，以及每个 Token 仅激活约 2B 个（共 20B）参数的高效 MoE 架构。"

Q: "Seed1.5-VL 是开源的吗？我该如何访问？"

"是的，Seed1.5-VL 是开源的。模型权重、推理代码和评估脚本可在 GitHub 上的 ByteDance-Seed 组织下获取。该模型可使用 Hugging Face Transformers 库或官方推理代码库进行部署。"

Seed1.5-VL 是字节跳动的视觉语言基础模型，采用 20B 参数的 MoE 架构，在 60 个公开基准测试中的 38 项达到业界最佳水平。

技术编辑团队 May 02, 2026 阅读 11 分钟

在快速发展的视觉语言模型领域，一个来自意想不到角落的新重量级选手出现了。由字节跳动 Seed 团队开发的 Seed1.5-VL，在涵盖图像理解、视频理解、文档解析和多图像推理的 60 个公开基准测试中，惊人地在 38 项中达到了业界最佳水平。

基于 200 亿参数的混合专家（MoE）架构，每个 Token 约激活 20 亿参数，Seed1.5-VL 代表了原始能力和计算效率之间的谨慎平衡。它超越了参数量远大于它的模型，同时保持了适合实际应用的推理速度。

该模型的基准测试表现不仅仅在于获胜的数量，更在于它所主导的类别范围。从 OCR 和图表理解到多图像推理和视频理解，Seed1.5-VL 证明了字节跳动的研究团队在多模态领域取得了真正全面的成就。

Seed1.5-VL 背后的架构是什么？

Seed1.5-VL 的架构堪称现代多模态设计的典范，将多项成熟技术组合成一个连贯的系统。

组件	描述	用途
视觉编码器 1	SigLIP（大规模）	通用视觉特征提取
视觉编码器 2	ViTDet	精细细节保留
视觉投影器	Q-Former	桥接视觉和语言空间
语言骨干	MoE LLM（~2B 激活/20B 总计）	语言理解与生成
动态分辨率	Resolution Upscaling 管道	可变输入分辨率处理

双重视觉编码器设计尤其创新。SigLIP 提供广泛的视觉理解——识别物体、场景和整体构图。ViTDet 增加了精细细节，使模型能够读取小文字、区分细微的视觉差异，并理解典型 VLM 会忽略的低级视觉特征。

graph TD
    A[输入图像] --> B[SigLIP 编码器]
    A --> C[ViTDet 编码器]
    B --> D[视觉特征融合]
    C --> D
    D --> E[Q-Former 投影]
    F[输入文本] --> G[文本嵌入]
    E --> H[MoE LLM 骨干]
    G --> H
    H --> I[专家路由]
    I --> J[专家 1：视觉推理]
    I --> K[专家 2：文本理解]
    I --> L[专家 3：多图像比较]
    I --> M[专家 N：...]
    J --> N[输出生成]
    K --> N
    L --> N
    M --> N

Seed1.5-VL 在各基准类别中的表现如何？

Seed1.5-VL 基准测试表现的广度是其最令人印象深刻的特点。下表显示了它在主要评估类别中的表现。

基准类别	最高分	SOTA 状态	关键指标
通用 VQA	MMBench-EN：87.5	SOTA	多模态理解
中文 VQA	MMBench-CN：85.2	SOTA	中文多模态问答
OCR 理解	OCRBench：88.1	SOTA	图中文字识别
图表和文档	ChartQA：90.0	SOTA	数据可视化阅读
视频理解	Video-MME：69.3	SOTA	时间视频推理
多图像	BLINK：62.5	SOTA	跨图像比较

ChartQA 的 90.0% 得分尤其值得注意——它证明 Seed1.5-VL 不仅能看到图表，还能真正理解它们，从复杂的可视化中提取准确的数据点和关系。

Seed1.5-VL 如何处理视频理解？

视频理解为 VLM 带来了独特的挑战：模型必须维持跨帧的时间连贯性、追踪物体运动，并理解随着时间展开的动作。

sequenceDiagram
    Participant V as 视频输入
    Participant S as 采样器
    Participant E as 视觉编码器
    Participant M as MoE LLM
    Participant O as 输出
    
    V->>S: 提取关键帧
    S->>E: 发送采样帧
    E->>M: 每帧视觉 Token
    M->>M: 跨帧时间注意力
    M->>M: 跨时间物体追踪
    M->>O: 生成视频描述
    M->>O: 回答时间问题

Seed1.5-VL 通过采样关键帧、通过双重视觉编码器管道编码每一帧，然后让 MoE 语言骨干在时间维度上进行推理来处理视频。这种方法在 Video-MME 基准测试中获得了 69.3 的总分，使其无论参数量如何，都位居顶尖视频理解模型之列。

Seed1.5-VL 模型变体如何比较？

字节跳动发布了多种模型配置，以适应不同的部署场景。

变体	架构	参数（激活）	最适合
Seed1.5-VL-8B	密集	8B (8B)	标准推理
Seed1.5-VL-20B	MoE	20B (~2B)	高性能应用
Seed1.5-VL-20B-Plus	MoE 增强	20B (~2B)	最大准确度

20B MoE 变体是旗舰型号，使用其每个 Token 2B 的激活参数来实现有时可与激活参数量 10 倍于它的模型相媲美的结果。「Plus」变体结合了额外的训练数据和扩展的微调，以实现最大的基准测试性能。

Seed1.5-VL 有哪些实际应用？

Seed1.5-VL 的多样化能力可转化为跨多个行业的具体应用。

应用领域	使用案例	Seed1.5-VL 优势
文档处理	自动化表单提取、发票解析	优越的 OCR + 版面理解
电子商务	产品描述生成、视觉搜索	多图像推理用于目录比较
无障碍	为视障用户提供图像描述	详细场景理解
教育	视觉问答、图表解释	ChartQA 领先
视频分析	内容审核、场景描述	时间视频推理

如何部署 Seed1.5-VL？

该模型可通过官方 GitHub 仓库进行本地部署。

git clone https://github.com/ByteDance-Seed/Seed1.5-VL
cd Seed1.5-VL
pip install -r requirements.txt

# 执行推理
python demo.py --model-path Seed1.5-VL-20B

对于生产部署，字节跳动还提供了使用 vLLM 和 TensorRT-LLM 后端优化的推理代码，实现高效的大规模服务。Hugging Face 集成允许使用标准 Transformers API 轻松加载模型。

常见问题

什么是 Seed1.5-VL？ Seed1.5-VL 是字节跳动的视觉语言基础模型，采用 20B 参数的混合专家（MoE）架构。它在涵盖图像理解、视频理解、文档解析和多图像推理任务的 60 个公开基准测试中的 38 项达到业界最佳结果。

Seed1.5-VL 的架构是什么？ Seed1.5-VL 使用 20B 参数的 MoE（混合专家）架构，每个 Token 约激活 2B 参数。它采用双重视觉编码器设计，结合 SigLIP 处理通用视觉特征和 ViTDet 处理精细细节，通过 Q-Former 投影器连接到 LLM 骨干网络。

Seed1.5-VL 在基准测试上表现如何？ Seed1.5-VL 在 60 个公开基准测试中的 38 项达到 SOTA，超越了可比甚至更大尺寸的模型。在特定任务上，它在 ChartQA 获得 90.0%，在 OCRBench 获得 88.1%，在 MMBench-EN 获得 87.5，在 MMBench-CN 获得 85.2%。在视频理解方面，它在 Video-MME 上获得 69.3 的总分。

Seed1.5-VL 与其他 VLM 模型有何不同？ Seed1.5-VL 通过多项架构创新脱颖而出：保留精细视觉细节的双重视觉编码器、动态提升输入分辨率的 Resolution Upscaling、原生多图像训练管道，以及每个 Token 仅激活约 2B 个（共 20B）参数的高效 MoE 架构。

Seed1.5-VL 是开源的吗？我该如何访问？ 是的，Seed1.5-VL 是开源的。模型权重、推理代码和评估脚本可在 GitHub 上的 ByteDance-Seed 组织下获取。该模型可使用 Hugging Face Transformers 库或官方推理代码库进行部署。

Seed1.5-VL：字节跳动的视觉语言基础模型，在 38 项基准测试中达到 SOTA

Seed1.5-VL 背后的架构是什么？

Seed1.5-VL 在各基准类别中的表现如何？

Seed1.5-VL 如何处理视频理解？

Seed1.5-VL 模型变体如何比较？

Seed1.5-VL 有哪些实际应用？

如何部署 Seed1.5-VL？

常见问题

延伸阅读

LATEST POST

Easy Dataset：用于合成 LLM 微调数据的开源框架

CopilotKit：用于构建应用内 AI Copilot 的开源前端堆栈

ComfyUI：最强大的开源扩散模型 GUI，采用节点式工作流程

TAG

CATEGORIES