在快速發展的視覺語言模型領域,一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL,在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中,驚人地在 38 項中達到了業界最佳水準。
基於 200 億參數的混合專家(MoE)架構,每個 Token 約啟動 20 億參數,Seed1.5-VL 代表了原始能力和運算效率之間的謹慎平衡。它超越了參數量遠大於它的模型,同時保持了適合實際應用的推理速度。
該模型的基準測試表現不僅僅在於獲勝的數量,更在於它所主導的類別範圍。從 OCR 和圖表理解到多影像推理和影片理解,Seed1.5-VL 證明了字節跳動的研究團隊在多模態領域取得了真正全面的成就。
Seed1.5-VL 背後的架構是什麼?
Seed1.5-VL 的架構堪稱現代多模態設計的典範,將多項成熟技術組合成一個連貫的系統。
| 組件 | 描述 | 用途 |
|---|---|---|
| 視覺編碼器 1 | SigLIP(大規模) | 通用視覺特徵提取 |
| 視覺編碼器 2 | ViTDet | 精細細節保留 |
| 視覺投影器 | Q-Former | 橋接視覺和語言空間 |
| 語言骨幹 | MoE LLM(~2B 啟動/20B 總計) | 語言理解與生成 |
| 動態解析度 | 解析度放大管道 | 可變輸入解析度處理 |
雙重視覺編碼器設計尤其創新。SigLIP 提供廣泛的視覺理解——識別物體、場景和整體構圖。ViTDet 增加了精細細節,使模型能夠讀取小文字、區分細微的視覺差異,並理解典型 VLM 會忽略的低階視覺特徵。
graph TD
A[輸入影像] --> B[SigLIP 編碼器]
A --> C[ViTDet 編碼器]
B --> D[視覺特徵融合]
C --> D
D --> E[Q-Former 投影]
F[輸入文字] --> G[文字嵌入]
E --> H[MoE LLM 骨幹]
G --> H
H --> I[專家路由]
I --> J[專家 1:視覺推理]
I --> K[專家 2:文字理解]
I --> L[專家 3:多影像比較]
I --> M[專家 N:...]
J --> N[輸出生成]
K --> N
L --> N
M --> NSeed1.5-VL 在各基準類別中的表現如何?
Seed1.5-VL 基準測試表現的廣度是其最令人印象深刻的特點。下表顯示了它在主要評估類別中的表現。
| 基準類別 | 最高分 | SOTA 狀態 | 關鍵指標 |
|---|---|---|---|
| 通用 VQA | MMBench-EN:87.5 | SOTA | 多模態理解 |
| 中文 VQA | MMBench-CN:85.2 | SOTA | 中文多模態問答 |
| OCR 理解 | OCRBench:88.1 | SOTA | 圖中文字識別 |
| 圖表和文件 | ChartQA:90.0 | SOTA | 資料視覺化閱讀 |
| 影片理解 | Video-MME:69.3 | SOTA | 時間影片推理 |
| 多影像 | BLINK:62.5 | SOTA | 跨影像比較 |
ChartQA 的 90.0% 得分尤其值得注意——它證明 Seed1.5-VL 不僅能看到圖表,還能真正理解它們,從複雜的視覺化中提取準確的數據點和關係。
Seed1.5-VL 如何處理影片理解?
影片理解為 VLM 帶來了獨特的挑戰:模型必須維持跨幀的時間連貫性、追蹤物體運動,並理解隨著時間展開的動作。
sequenceDiagram
Participant V as 影片輸入
Participant S as 取樣器
Participant E as 視覺編碼器
Participant M as MoE LLM
Participant O as 輸出
V->>S: 提取關鍵幀
S->>E: 發送取樣幀
E->>M: 每幀視覺 Token
M->>M: 跨幀時間注意力
M->>M: 跨時間物體追蹤
M->>O: 生成影片描述
M->>O: 回答時間問題Seed1.5-VL 通過取樣關鍵幀、透過雙重視覺編碼器管道編碼每一幀,然後讓 MoE 語言骨幹在時間維度上進行推理來處理影片。這種方法在 Video-MME 基準測試中獲得了 69.3 的總分,使其無論參數量如何,都位居頂尖影片理解模型之列。
Seed1.5-VL 模型變體如何比較?
字節跳動發布了多種模型配置,以適應不同的部署場景。
| 變體 | 架構 | 參數(啟動) | 最適合 |
|---|---|---|---|
| Seed1.5-VL-8B | 密集 | 8B (8B) | 標準推理 |
| Seed1.5-VL-20B | MoE | 20B (~2B) | 高效能應用 |
| Seed1.5-VL-20B-Plus | MoE 增強 | 20B (~2B) | 最大準確度 |
20B MoE 變體是旗艦型號,使用其每個 Token 2B 的啟動參數來實現有時可與啟動參數量 10 倍於它的模型相媲美的結果。「Plus」變體結合了額外的訓練資料和擴展的微調,以實現最大的基準測試效能。
Seed1.5-VL 有哪些實際應用?
Seed1.5-VL 的多樣化能力可轉化為跨多個行業的具體應用。
| 應用領域 | 使用案例 | Seed1.5-VL 優勢 |
|---|---|---|
| 文件處理 | 自動化表單提取、發票解析 | 優越的 OCR + 版面理解 |
| 電子商務 | 產品描述生成、視覺搜尋 | 多影像推理用於目錄比較 |
| 無障礙 | 為視障使用者提供影像描述 | 詳細場景理解 |
| 教育 | 視覺問答、圖表解釋 | ChartQA 領先 |
| 影片分析 | 內容審核、場景描述 | 時間影片推理 |
如何部署 Seed1.5-VL?
該模型可透過官方 GitHub 倉庫進行本地部署。
git clone https://github.com/ByteDance-Seed/Seed1.5-VL
cd Seed1.5-VL
pip install -r requirements.txt
# 執行推理
python demo.py --model-path Seed1.5-VL-20B
對於生產部署,字節跳動還提供了使用 vLLM 和 TensorRT-LLM 後端的最佳化推理程式碼,實現高效的大規模服務。Hugging Face 整合允許使用標準 Transformers API 輕鬆載入模型。
常見問題
什麼是 Seed1.5-VL? Seed1.5-VL 是字節跳動的視覺語言基礎模型,採用 20B 參數的混合專家(MoE)架構。它在涵蓋影像理解、影片理解、文件解析和多影像推理任務的 60 個公開基準測試中的 38 項達到業界最佳結果。
Seed1.5-VL 的架構是什麼? Seed1.5-VL 使用 20B 參數的 MoE(混合專家)架構,每個 Token 約啟動 2B 參數。它採用雙重視覺編碼器設計,結合 SigLIP 處理通用視覺特徵和 ViTDet 處理精細細節,通過 Q-Former 投影器連接到 LLM 骨幹網路。
Seed1.5-VL 在基準測試上表現如何? Seed1.5-VL 在 60 個公開基準測試中的 38 項達到 SOTA,超越了可比甚至更大尺寸的模型。在特定任務上,它在 ChartQA 獲得 90.0%,在 OCRBench 獲得 88.1%,在 MMBench-EN 獲得 87.5,在 MMBench-CN 獲得 85.2%。在影片理解方面,它在 Video-MME 上獲得 69.3 的總分。
Seed1.5-VL 與其他 VLM 模型有何不同? Seed1.5-VL 通過多項架構創新脫穎而出:保留精細視覺細節的雙重視覺編碼器、動態提升輸入解析度的解析度放大、原生多影像訓練管道,以及每個 Token 僅啟動約 2B 個(共 20B)參數的高效 MoE 架構。
Seed1.5-VL 是開源的嗎?我該如何存取? 是的,Seed1.5-VL 是開源的。模型權重、推理程式碼和評估算稿可在 GitHub 上的 ByteDance-Seed 組織下取得。該模型可使用 Hugging Face Transformers 函式庫或官方推理程式碼庫進行部署。
延伸閱讀
- Seed1.5-VL GitHub 倉庫 – 官方原始碼、模型權重和文件
- Seed1.5-VL 技術報告 (arXiv) – 詳細介紹架構和基準測試的研究論文
- Hugging Face 上的 Seed1.5-VL – 模型權重和推理範例
- 字節跳動 Seed 團隊部落格 – 研究部落格和其他模型發布