InternVL 是由上海人工智慧實驗室的 OpenGVLab 開發的一系列開源視覺語言基礎模型。InternVL 系列將視覺 Transformer 擴展至 60 億個參數,並逐步與大型語言模型對齊,建立統一架構,在多項多模態基準測試中達到 GPT-4o 等級的表現。旗艦模型 InternVL2.5-241B 是迄今發布的最大型開源多模態模型之一。
該專案已在 CVPR 2024 獲得認可,並因其展示了開源視覺語言模型在適當擴展下可以達到或超越專有系統而受到廣泛關注。InternVL 的架構可處理圖像標題、視覺問答、文件理解、圖表分析與多圖像推理等任務,是多模態 AI 應用的多功能基礎。
InternVL 的架構如何運作?
InternVL 採用漸進式對齊策略。視覺編碼器(InternViT)在大規模下進行預訓練——最高達 6B 參數——然後透過精心設計的動態高解析度處理機制與 LLM 對齊。與早期將圖像降採樣為固定低解析度的 VLM 不同,InternVL 透過動態將圖像分割為圖塊來保持原始長寬比,每個圖塊以高解析度處理後再合併進行整體理解。
flowchart LR
A[輸入圖像] --> B[動態圖塊分割]
B --> C[InternViT - 6B 視覺編碼器]
C --> D[MLP 投影器]
D --> E[LLM 骨幹]
F[文字輸入] --> G[文字分詞器]
G --> E
E --> H[多模態輸出]
H --> I[圖像標題]
H --> J[視覺問答]
H --> K[文件理解]有哪些模型大小可供選擇?
| 模型 | 視覺編碼器 | LLM 骨幹 | 總參數量 | 上下文視窗 |
|---|---|---|---|---|
| InternVL2-1B | 300M | 0.5B | 1B | 128K |
| InternVL2-8B | 300M | 7B | 8B | 128K |
| InternVL2-26B | 300M | 25B | 26B | 128K |
| InternVL2-76B | 6B | 70B | 76B | 128K |
| InternVL2.5-241B | 6B | 235B | 241B | 256K |
基準測試表現
InternVL2.5-241B 在主流多模態基準測試中達到競爭力或最先進的成果,在視覺語言任務上常與 GPT-4o 和 Gemini Ultra 匹敵或超越。
| 基準測試 | InternVL2.5-241B | GPT-4o | Gemini Ultra 1.5 | InternVL2-76B |
|---|---|---|---|---|
| MMMU(驗證集) | 72.1% | 69.1% | 62.2% | 65.4% |
| MathVista | 66.8% | 63.8% | 61.3% | 60.2% |
| ChartQA | 85.3% | 81.6% | 79.8% | 80.1% |
| DocVQA | 92.7% | 90.2% | 88.9% | 88.5% |
| OCRBench | 851 | 828 | 810 | 812 |
什麼是動態高解析度處理?
傳統 VLM 會將所有輸入圖像調整為固定解析度,在文件理解或圖表閱讀等任務中遺失關鍵細節。InternVL 的動態圖塊分割方法透過將圖像分割為 448x448 像素的圖塊來保留原始長寬比。每個圖塊由視覺編碼器以完整解析度獨立處理,產生的特徵再與全域上下文合併,同時保留細節與整體理解。這對於細節重要的密集文字文件、科學圖表與 UI 螢幕截圖尤其有價值。
sequenceDiagram
participant Image as 輸入圖像
participant Tiler as 動態圖塊分割器
participant ViT as InternViT 編碼器
participant Merger as 特徵合併器
participant LLM as 語言模型
Image->>Tiler: 1920x1080 圖像
Tiler->>Tiler: 計算最佳圖塊
Tiler->>ViT: 圖塊 1(448x448)
Tiler->>ViT: 圖塊 2(448x448)
Tiler->>ViT: 圖塊 3(448x448)
Tiler->>ViT: 圖塊 N...
ViT-->>Merger: 每圖塊特徵
Image->>Merger: 全域縮圖特徵
Merger->>Merger: 串接 + 投影
Merger->>LLM: 統一多模態 token
LLM-->>User: 文字回應InternVL 採用什麼授權?
InternVL 採用 MIT 或 Apache 2.0 授權,視具體模型版本而定。模型權重在 Hugging Face 上免費提供,訓練程式碼、推論腳本與評估基準均為開源。這種寬鬆授權使其在學術研究與商業應用中廣泛採用,包括文件處理流程、無障礙工具與多模態搜尋系統。
InternVL 能否處理影片輸入?
雖然 InternVL 主要設計用於圖像理解,但其架構可透過將畫格作為圖像序列處理自然擴展至影片。模型可利用其擴展的上下文視窗跨多個畫格進行推理,支援影片標題、活動識別與時間推理等任務。InternVL2.5-241B 的 256K token 上下文視窗允許在單次前向傳遞中處理數十個高解析度畫格。
InternVL 與其他開源 VLM 相比如何?
InternVL 在標準基準測試中 consistently 優於 LLaVA、Qwen-VL 與 CogVLM 等其他開源 VLM,特別是在需要高解析度理解的任務(如 OCR 與文件解析)上。241B 變體首次將開源 VLM 的表現帶入與專有系統直接競爭的層級。中階模型大小(8B、26B)為運算預算有限的部署場景提供了實用的取捨。
常見問題
什麼是 InternVL? InternVL 是由上海 AI 實驗室開發的開源視覺語言模型系列,將視覺 Transformer 擴展至 6B 參數,達到 GPT-4o 等級的表現。
有哪些模型版本可用? 參數量從 1B 到 241B 不等,其中 InternVL2.5-241B 為旗艦模型,提供 256K 上下文與最先進的多模態表現。
架構是什麼? InternVL 採用漸進式對齊策略,結合大規模 InternViT 視覺編碼器、MLP 投影器與標準 LLM 骨幹,並配備動態高解析度圖塊分割。
基準測試表現如何? InternVL2.5-241B 在 MMMU(72.1%)、MathVista(66.8%)、ChartQA(85.3%)與 DocVQA(92.7%)上達到競爭力成果,常與 GPT-4o 匹敵或超越。
使用什麼授權? InternVL 採用 MIT 或 Apache 2.0 授權,模型權重在 Hugging Face 上免費提供,可用於研究與商業用途。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!