视觉语言 AI——即同时理解图像和文字的模型——是人工智能中发展最快速的领域之一。Salesforce 的 LAVIS(视觉语言智能库)提供了一个统一的框架,用于训练、评估和部署各种视觉语言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。
LAVIS 同时为研究人员和实践者设计。研究人员可以获得最先进模型的干净实现及可重现的基准,而实践者可以获得精简的 API,将这些模型应用于图像标题生成、视觉问答和跨模态检索等实际任务。
支持的模型
| 模型 | 任务 | 年份 | 参数量 |
|---|---|---|---|
| BLIP | 标题生成、检索、VQA | 2022 | 470M |
| BLIP-2 | 标题生成、VQA、检索 | 2023 | 1.2B |
| InstructBLIP | 指令跟随 VQA | 2023 | 1.2B |
| ALBEF | 检索、基础定位 | 2021 | 210M |
| ALPRO | 视频语言任务 | 2022 | 250M |
模型架构
flowchart LR
A[图像] --> B[视觉编码器<br/>ViT]
C[文字] --> D[文字编码器<br/>BERT]
B --> E[跨模态注意力]
D --> E
E --> F{融合策略}
F -->|BLIP| G[多模态编码器]
F -->|BLIP-2| H[Q-Former]
F -->|InstructBLIP| I[Q-Former + LLM]
G --> J[输出]
H --> J
I --> JLAVIS 中的每个模型使用不同的融合策略。BLIP 使用标准的多模态编码器,BLIP-2 引入了 Q-Former(一个连接视觉和文字的轻量级 Transformer),而 InstructBLIP 则添加了冻结的 LLM 以实现指令跟随。
任务性能
| 任务 | BLIP-2 | InstructBLIP | GPT-4V |
|---|---|---|---|
| VQAv2 准确度 | 65.0% | 73.2% | 75.5% |
| 图像标题生成(CIDEr) | 136.7 | 142.3 | 145.1 |
| 零样本检索 | 62.3% | 67.8% | 70.2% |
| OKVQA 准确度 | 52.4% | 57.3% | 61.8% |
如需更多信息,请访问 LAVIS GitHub 仓库 和 LAVIS 文档。
常见问题
Q:LAVIS 建议使用什么 GPU 硬件? A:BLIP-2 和 InstructBLIP 需要至少 16GB GPU 内存。BLIP 等较小模型可在 8GB 上运行。
Q:我可以在自定义数据上微调 LAVIS 中的模型吗? A:可以,LAVIS 提供了用于在自定义数据集上微调的训练脚本和配置文件。
Q:LAVIS 支持视频输入吗? A:是的,通过处理视频语言理解任务的 ALPRO 模型。
Q:LAVIS 与 PyTorch Lightning 兼容吗? A:是的,LAVIS 使用 PyTorch,并可与 Lightning 集成进行分布式训练。
Q:LAVIS 支持哪些数据集格式? A:COCO、Visual Genome、SBU Captions,以及通过其数据模块支持自定义 JSON/CSV 格式。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!