InternVL 是由上海人工智能实验室的 OpenGVLab 开发的一系列开源视觉语言基础模型。InternVL 系列将视觉 Transformer 扩展至 60 亿个参数,并逐步与大型语言模型对齐,建立统一架构,在多项多模态基准测试中达到 GPT-4o 级别的表现。旗舰模型 InternVL2.5-241B 是迄今为止发布的最大型开源多模态模型之一。
该项目已在 CVPR 2024 获得认可,并因其展示了开源视觉语言模型在适当扩展下可以达到或超越专有系统而受到广泛关注。InternVL 的架构可处理图像描述、视觉问答、文档理解、图表分析与多图像推理等任务,是多模态 AI 应用的多功能基础。
InternVL 的架构如何运作?
InternVL 采用渐进式对齐策略。视觉编码器(InternViT)在大规模下进行预训练——最高达 6B 参数——然后通过精心设计的动态高分辨率处理机制与 LLM 对齐。与早期将图像降采样为固定低分辨率的 VLM 不同,InternVL 通过动态将图像分割为图块来保持原始宽高比,每个图块以高分辨率处理后再合并进行整体理解。
flowchart LR
A[输入图像] --> B[动态图块分割]
B --> C[InternViT - 6B 视觉编码器]
C --> D[MLP 投影器]
D --> E[LLM 骨干]
F[文本输入] --> G[文本分词器]
G --> E
E --> H[多模态输出]
H --> I[图像描述]
H --> J[视觉问答]
H --> K[文档理解]有哪些模型大小可供选择?
| 模型 | 视觉编码器 | LLM 骨干 | 总参数量 | 上下文窗口 |
|---|---|---|---|---|
| InternVL2-1B | 300M | 0.5B | 1B | 128K |
| InternVL2-8B | 300M | 7B | 8B | 128K |
| InternVL2-26B | 300M | 25B | 26B | 128K |
| InternVL2-76B | 6B | 70B | 76B | 128K |
| InternVL2.5-241B | 6B | 235B | 241B | 256K |
基准测试表现
InternVL2.5-241B 在主流多模态基准测试中达到竞争力或最先进的成果,在视觉语言任务上常与 GPT-4o 和 Gemini Ultra 匹敌或超越。
| 基准测试 | InternVL2.5-241B | GPT-4o | Gemini Ultra 1.5 | InternVL2-76B |
|---|---|---|---|---|
| MMMU(验证集) | 72.1% | 69.1% | 62.2% | 65.4% |
| MathVista | 66.8% | 63.8% | 61.3% | 60.2% |
| ChartQA | 85.3% | 81.6% | 79.8% | 80.1% |
| DocVQA | 92.7% | 90.2% | 88.9% | 88.5% |
| OCRBench | 851 | 828 | 810 | 812 |
什么是动态高分辨率处理?
传统 VLM 会将所有输入图像调整为固定分辨率,在文档理解或图表阅读等任务中丢失关键细节。InternVL 的动态图块分割方法通过将图像分割为 448x448 像素的图块来保留原始宽高比。每个图块由视觉编码器以完整分辨率独立处理,产生的特征再与全局上下文合并,同时保留细节与整体理解。这对于细节重要的密集文本文档、科学图表与 UI 屏幕截图尤其有价值。
sequenceDiagram
participant Image as 输入图像
participant Tiler as 动态图块分割器
participant ViT as InternViT 编码器
participant Merger as 特征合并器
participant LLM as 语言模型
Image->>Tiler: 1920x1080 图像
Tiler->>Tiler: 计算最佳图块
Tiler->>ViT: 图块 1(448x448)
Tiler->>ViT: 图块 2(448x448)
Tiler->>ViT: 图块 3(448x448)
Tiler->>ViT: 图块 N...
ViT-->>Merger: 每图块特征
Image->>Merger: 全局缩略图特征
Merger->>Merger: 拼接 + 投影
Merger->>LLM: 统一多模态 token
LLM-->>User: 文本回复InternVL 采用什么许可?
InternVL 采用 MIT 或 Apache 2.0 许可,视具体模型版本而定。模型权重在 Hugging Face 上免费提供,训练代码、推理脚本与评估基准均为开源。这种宽松许可使其在学术研究与商业应用中广泛采用,包括文档处理流程、无障碍工具与多模态搜索系统。
InternVL 能否处理视频输入?
虽然 InternVL 主要设计用于图像理解,但其架构可通过将帧作为图像序列处理自然扩展至视频。模型可利用其扩展的上下文窗口跨多个帧进行推理,支持视频描述、活动识别与时间推理等任务。InternVL2.5-241B 的 256K token 上下文窗口允许在单次前向传递中处理数十个高分辨率帧。
InternVL 与其他开源 VLM 相比如何?
InternVL 在标准基准测试中 consistently 优于 LLaVA、Qwen-VL 与 CogVLM 等其他开源 VLM,特别是在需要高分辨率理解的任务(如 OCR 与文档解析)上。241B 变体首次将开源 VLM 的表现带入与专有系统直接竞争的层级。中阶模型大小(8B、26B)为计算预算有限的部署场景提供了实用的取舍。
常见问题
什么是 InternVL? InternVL 是由上海 AI 实验室开发的开源视觉语言模型系列,将视觉 Transformer 扩展至 6B 参数,达到 GPT-4o 级别的表现。
有哪些模型版本可用? 参数量从 1B 到 241B 不等,其中 InternVL2.5-241B 为旗舰模型,提供 256K 上下文与最先进的多模态表现。
架构是什么? InternVL 采用渐进式对齐策略,结合大规模 InternViT 视觉编码器、MLP 投影器与标准 LLM 骨干,并配备动态高分辨率图块分割。
基准测试表现如何? InternVL2.5-241B 在 MMMU(72.1%)、MathVista(66.8%)、ChartQA(85.3%)与 DocVQA(92.7%)上达到竞争力成果,常与 GPT-4o 匹敌或超越。
使用什么许可? InternVL 采用 MIT 或 Apache 2.0 许可,模型权重在 Hugging Face 上免费提供,可用于研究与商业用途。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!