Seed1.5-VL：字節跳動的視覺語言基礎模型，在 38 項基準測試中達到 SOTA

Q: "什麼是 Seed1.5-VL？"

"Seed1.5-VL 是字節跳動的視覺語言基礎模型，採用 20B 參數的混合專家（MoE）架構。它在涵蓋影像理解、影片理解、文件解析和多影像推理任務的 60 個公開基準測試中的 38 項達到業界最佳結果。"

Q: "Seed1.5-VL 的架構是什麼？"

"Seed1.5-VL 使用 20B 參數的 MoE（混合專家）架構，每個 Token 約啟動 2B 參數，使其相對於總參數量而言非常高效。它採用雙重視覺編碼器設計，結合 SigLIP 處理通用視覺特徵和 ViTDet 處理精細細節，通過 Q-Former 投影器連接到 LLM 骨幹網路。"

Q: "Seed1.5-VL 在基準測試上表現如何？"

"Seed1.5-VL 在 60 個公開基準測試中的 38 項達到 SOTA，超越了可比甚至更大尺寸的模型。在特定任務上，它在 ChartQA 獲得 90.0%，在 OCRBench 獲得 88.1%，在 MMBench-EN 獲得 87.5，在 MMBench-CN 獲得 85.2%。在影片理解方面，它在 Video-MME 上獲得 69.3 的總分。"

Q: "Seed1.5-VL 與其他 VLM 模型有何不同？"

"Seed1.5-VL 通過多項架構創新脫穎而出：保留精細視覺細節的雙重視覺編碼器、動態提升輸入解析度的解析度放大、原生多影像訓練管道，以及每個 Token 僅啟動約 2B 個（共 20B）參數的高效 MoE 架構。"

Q: "Seed1.5-VL 是開源的嗎？我該如何存取？"

"是的，Seed1.5-VL 是開源的。模型權重、推理程式碼和評估算稿可在 GitHub 上的 ByteDance-Seed 組織下取得。該模型可使用 Hugging Face Transformers 函式庫或官方推理程式碼庫進行部署。"

Seed1.5-VL 是字節跳動的視覺語言基礎模型，採用 20B 參數的 MoE 架構，在 60 個公開基準測試中的 38 項達到業界最佳水準。

技術編輯團隊 May 02, 2026 閱讀 11 分鐘

在快速發展的視覺語言模型領域，一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL，在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中，驚人地在 38 項中達到了業界最佳水準。

基於 200 億參數的混合專家（MoE）架構，每個 Token 約啟動 20 億參數，Seed1.5-VL 代表了原始能力和運算效率之間的謹慎平衡。它超越了參數量遠大於它的模型，同時保持了適合實際應用的推理速度。

該模型的基準測試表現不僅僅在於獲勝的數量，更在於它所主導的類別範圍。從 OCR 和圖表理解到多影像推理和影片理解，Seed1.5-VL 證明了字節跳動的研究團隊在多模態領域取得了真正全面的成就。

Seed1.5-VL 背後的架構是什麼？

Seed1.5-VL 的架構堪稱現代多模態設計的典範，將多項成熟技術組合成一個連貫的系統。

組件	描述	用途
視覺編碼器 1	SigLIP（大規模）	通用視覺特徵提取
視覺編碼器 2	ViTDet	精細細節保留
視覺投影器	Q-Former	橋接視覺和語言空間
語言骨幹	MoE LLM（~2B 啟動/20B 總計）	語言理解與生成
動態解析度	解析度放大管道	可變輸入解析度處理

雙重視覺編碼器設計尤其創新。SigLIP 提供廣泛的視覺理解——識別物體、場景和整體構圖。ViTDet 增加了精細細節，使模型能夠讀取小文字、區分細微的視覺差異，並理解典型 VLM 會忽略的低階視覺特徵。

graph TD
    A[輸入影像] --> B[SigLIP 編碼器]
    A --> C[ViTDet 編碼器]
    B --> D[視覺特徵融合]
    C --> D
    D --> E[Q-Former 投影]
    F[輸入文字] --> G[文字嵌入]
    E --> H[MoE LLM 骨幹]
    G --> H
    H --> I[專家路由]
    I --> J[專家 1：視覺推理]
    I --> K[專家 2：文字理解]
    I --> L[專家 3：多影像比較]
    I --> M[專家 N：...]
    J --> N[輸出生成]
    K --> N
    L --> N
    M --> N

Seed1.5-VL 在各基準類別中的表現如何？

Seed1.5-VL 基準測試表現的廣度是其最令人印象深刻的特點。下表顯示了它在主要評估類別中的表現。

基準類別	最高分	SOTA 狀態	關鍵指標
通用 VQA	MMBench-EN：87.5	SOTA	多模態理解
中文 VQA	MMBench-CN：85.2	SOTA	中文多模態問答
OCR 理解	OCRBench：88.1	SOTA	圖中文字識別
圖表和文件	ChartQA：90.0	SOTA	資料視覺化閱讀
影片理解	Video-MME：69.3	SOTA	時間影片推理
多影像	BLINK：62.5	SOTA	跨影像比較

ChartQA 的 90.0% 得分尤其值得注意——它證明 Seed1.5-VL 不僅能看到圖表，還能真正理解它們，從複雜的視覺化中提取準確的數據點和關係。

Seed1.5-VL 如何處理影片理解？

影片理解為 VLM 帶來了獨特的挑戰：模型必須維持跨幀的時間連貫性、追蹤物體運動，並理解隨著時間展開的動作。

sequenceDiagram
    Participant V as 影片輸入
    Participant S as 取樣器
    Participant E as 視覺編碼器
    Participant M as MoE LLM
    Participant O as 輸出
    
    V->>S: 提取關鍵幀
    S->>E: 發送取樣幀
    E->>M: 每幀視覺 Token
    M->>M: 跨幀時間注意力
    M->>M: 跨時間物體追蹤
    M->>O: 生成影片描述
    M->>O: 回答時間問題

Seed1.5-VL 通過取樣關鍵幀、透過雙重視覺編碼器管道編碼每一幀，然後讓 MoE 語言骨幹在時間維度上進行推理來處理影片。這種方法在 Video-MME 基準測試中獲得了 69.3 的總分，使其無論參數量如何，都位居頂尖影片理解模型之列。

Seed1.5-VL 模型變體如何比較？

字節跳動發布了多種模型配置，以適應不同的部署場景。

變體	架構	參數（啟動）	最適合
Seed1.5-VL-8B	密集	8B (8B)	標準推理
Seed1.5-VL-20B	MoE	20B (~2B)	高效能應用
Seed1.5-VL-20B-Plus	MoE 增強	20B (~2B)	最大準確度

20B MoE 變體是旗艦型號，使用其每個 Token 2B 的啟動參數來實現有時可與啟動參數量 10 倍於它的模型相媲美的結果。「Plus」變體結合了額外的訓練資料和擴展的微調，以實現最大的基準測試效能。

Seed1.5-VL 有哪些實際應用？

Seed1.5-VL 的多樣化能力可轉化為跨多個行業的具體應用。

應用領域	使用案例	Seed1.5-VL 優勢
文件處理	自動化表單提取、發票解析	優越的 OCR + 版面理解
電子商務	產品描述生成、視覺搜尋	多影像推理用於目錄比較
無障礙	為視障使用者提供影像描述	詳細場景理解
教育	視覺問答、圖表解釋	ChartQA 領先
影片分析	內容審核、場景描述	時間影片推理

如何部署 Seed1.5-VL？

該模型可透過官方 GitHub 倉庫進行本地部署。

git clone https://github.com/ByteDance-Seed/Seed1.5-VL
cd Seed1.5-VL
pip install -r requirements.txt

# 執行推理
python demo.py --model-path Seed1.5-VL-20B

對於生產部署，字節跳動還提供了使用 vLLM 和 TensorRT-LLM 後端的最佳化推理程式碼，實現高效的大規模服務。Hugging Face 整合允許使用標準 Transformers API 輕鬆載入模型。

常見問題

什麼是 Seed1.5-VL？ Seed1.5-VL 是字節跳動的視覺語言基礎模型，採用 20B 參數的混合專家（MoE）架構。它在涵蓋影像理解、影片理解、文件解析和多影像推理任務的 60 個公開基準測試中的 38 項達到業界最佳結果。

Seed1.5-VL 的架構是什麼？ Seed1.5-VL 使用 20B 參數的 MoE（混合專家）架構，每個 Token 約啟動 2B 參數。它採用雙重視覺編碼器設計，結合 SigLIP 處理通用視覺特徵和 ViTDet 處理精細細節，通過 Q-Former 投影器連接到 LLM 骨幹網路。

Seed1.5-VL 在基準測試上表現如何？ Seed1.5-VL 在 60 個公開基準測試中的 38 項達到 SOTA，超越了可比甚至更大尺寸的模型。在特定任務上，它在 ChartQA 獲得 90.0%，在 OCRBench 獲得 88.1%，在 MMBench-EN 獲得 87.5，在 MMBench-CN 獲得 85.2%。在影片理解方面，它在 Video-MME 上獲得 69.3 的總分。

Seed1.5-VL 與其他 VLM 模型有何不同？ Seed1.5-VL 通過多項架構創新脫穎而出：保留精細視覺細節的雙重視覺編碼器、動態提升輸入解析度的解析度放大、原生多影像訓練管道，以及每個 Token 僅啟動約 2B 個（共 20B）參數的高效 MoE 架構。

Seed1.5-VL 是開源的嗎？我該如何存取？ 是的，Seed1.5-VL 是開源的。模型權重、推理程式碼和評估算稿可在 GitHub 上的 ByteDance-Seed 組織下取得。該模型可使用 Hugging Face Transformers 函式庫或官方推理程式碼庫進行部署。

Seed1.5-VL：字節跳動的視覺語言基礎模型，在 38 項基準測試中達到 SOTA

Seed1.5-VL 背後的架構是什麼？

Seed1.5-VL 在各基準類別中的表現如何？

Seed1.5-VL 如何處理影片理解？

Seed1.5-VL 模型變體如何比較？

Seed1.5-VL 有哪些實際應用？

如何部署 Seed1.5-VL？

常見問題

延伸閱讀

LATEST POST

Easy Dataset：用於合成 LLM 微調資料的開源框架

CopilotKit：用於建構應用內 AI Copilot 的開源前端堆疊

ComfyUI：最強大的開源擴散模型 GUI，採用節點式工作流程

TAG

CATEGORIES