AI

Seed1.5-VL:字節跳動的視覺語言基礎模型,在 38 項基準測試中達到 SOTA

Seed1.5-VL 是字節跳動的視覺語言基礎模型,採用 20B 參數的 MoE 架構,在 60 個公開基準測試中的 38 項達到業界最佳水準。

Seed1.5-VL:字節跳動的視覺語言基礎模型,在 38 項基準測試中達到 SOTA

在快速發展的視覺語言模型領域,一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL,在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中,驚人地在 38 項中達到了業界最佳水準。

基於 200 億參數的混合專家(MoE)架構,每個 Token 約啟動 20 億參數,Seed1.5-VL 代表了原始能力和運算效率之間的謹慎平衡。它超越了參數量遠大於它的模型,同時保持了適合實際應用的推理速度。

該模型的基準測試表現不僅僅在於獲勝的數量,更在於它所主導的類別範圍。從 OCR 和圖表理解到多影像推理和影片理解,Seed1.5-VL 證明了字節跳動的研究團隊在多模態領域取得了真正全面的成就。


Seed1.5-VL 背後的架構是什麼?

Seed1.5-VL 的架構堪稱現代多模態設計的典範,將多項成熟技術組合成一個連貫的系統。

組件描述用途
視覺編碼器 1SigLIP(大規模)通用視覺特徵提取
視覺編碼器 2ViTDet精細細節保留
視覺投影器Q-Former橋接視覺和語言空間
語言骨幹MoE LLM(~2B 啟動/20B 總計)語言理解與生成
動態解析度解析度放大管道可變輸入解析度處理

雙重視覺編碼器設計尤其創新。SigLIP 提供廣泛的視覺理解——識別物體、場景和整體構圖。ViTDet 增加了精細細節,使模型能夠讀取小文字、區分細微的視覺差異,並理解典型 VLM 會忽略的低階視覺特徵。


Seed1.5-VL 在各基準類別中的表現如何?

Seed1.5-VL 基準測試表現的廣度是其最令人印象深刻的特點。下表顯示了它在主要評估類別中的表現。

基準類別最高分SOTA 狀態關鍵指標
通用 VQAMMBench-EN:87.5SOTA多模態理解
中文 VQAMMBench-CN:85.2SOTA中文多模態問答
OCR 理解OCRBench:88.1SOTA圖中文字識別
圖表和文件ChartQA:90.0SOTA資料視覺化閱讀
影片理解Video-MME:69.3SOTA時間影片推理
多影像BLINK:62.5SOTA跨影像比較

ChartQA 的 90.0% 得分尤其值得注意——它證明 Seed1.5-VL 不僅能看到圖表,還能真正理解它們,從複雜的視覺化中提取準確的數據點和關係。


Seed1.5-VL 如何處理影片理解?

影片理解為 VLM 帶來了獨特的挑戰:模型必須維持跨幀的時間連貫性、追蹤物體運動,並理解隨著時間展開的動作。

Seed1.5-VL 通過取樣關鍵幀、透過雙重視覺編碼器管道編碼每一幀,然後讓 MoE 語言骨幹在時間維度上進行推理來處理影片。這種方法在 Video-MME 基準測試中獲得了 69.3 的總分,使其無論參數量如何,都位居頂尖影片理解模型之列。


Seed1.5-VL 模型變體如何比較?

字節跳動發布了多種模型配置,以適應不同的部署場景。

變體架構參數(啟動)最適合
Seed1.5-VL-8B密集8B (8B)標準推理
Seed1.5-VL-20BMoE20B (~2B)高效能應用
Seed1.5-VL-20B-PlusMoE 增強20B (~2B)最大準確度

20B MoE 變體是旗艦型號,使用其每個 Token 2B 的啟動參數來實現有時可與啟動參數量 10 倍於它的模型相媲美的結果。「Plus」變體結合了額外的訓練資料和擴展的微調,以實現最大的基準測試效能。


Seed1.5-VL 有哪些實際應用?

Seed1.5-VL 的多樣化能力可轉化為跨多個行業的具體應用。

應用領域使用案例Seed1.5-VL 優勢
文件處理自動化表單提取、發票解析優越的 OCR + 版面理解
電子商務產品描述生成、視覺搜尋多影像推理用於目錄比較
無障礙為視障使用者提供影像描述詳細場景理解
教育視覺問答、圖表解釋ChartQA 領先
影片分析內容審核、場景描述時間影片推理

如何部署 Seed1.5-VL?

該模型可透過官方 GitHub 倉庫進行本地部署。

git clone https://github.com/ByteDance-Seed/Seed1.5-VL
cd Seed1.5-VL
pip install -r requirements.txt

# 執行推理
python demo.py --model-path Seed1.5-VL-20B

對於生產部署,字節跳動還提供了使用 vLLM 和 TensorRT-LLM 後端的最佳化推理程式碼,實現高效的大規模服務。Hugging Face 整合允許使用標準 Transformers API 輕鬆載入模型。


常見問題

什麼是 Seed1.5-VL? Seed1.5-VL 是字節跳動的視覺語言基礎模型,採用 20B 參數的混合專家(MoE)架構。它在涵蓋影像理解、影片理解、文件解析和多影像推理任務的 60 個公開基準測試中的 38 項達到業界最佳結果。

Seed1.5-VL 的架構是什麼? Seed1.5-VL 使用 20B 參數的 MoE(混合專家)架構,每個 Token 約啟動 2B 參數。它採用雙重視覺編碼器設計,結合 SigLIP 處理通用視覺特徵和 ViTDet 處理精細細節,通過 Q-Former 投影器連接到 LLM 骨幹網路。

Seed1.5-VL 在基準測試上表現如何? Seed1.5-VL 在 60 個公開基準測試中的 38 項達到 SOTA,超越了可比甚至更大尺寸的模型。在特定任務上,它在 ChartQA 獲得 90.0%,在 OCRBench 獲得 88.1%,在 MMBench-EN 獲得 87.5,在 MMBench-CN 獲得 85.2%。在影片理解方面,它在 Video-MME 上獲得 69.3 的總分。

Seed1.5-VL 與其他 VLM 模型有何不同? Seed1.5-VL 通過多項架構創新脫穎而出:保留精細視覺細節的雙重視覺編碼器、動態提升輸入解析度的解析度放大、原生多影像訓練管道,以及每個 Token 僅啟動約 2B 個(共 20B)參數的高效 MoE 架構。

Seed1.5-VL 是開源的嗎?我該如何存取? 是的,Seed1.5-VL 是開源的。模型權重、推理程式碼和評估算稿可在 GitHub 上的 ByteDance-Seed 組織下取得。該模型可使用 Hugging Face Transformers 函式庫或官方推理程式碼庫進行部署。


延伸閱讀

TAG