LAVIS：Salesforce 的视觉语言 AI 库

LAVIS 是一个用于视觉语言研究的深度学习库，支持 BLIP、BLIP-2、InstructBLIP 以及图文检索、标题生成和问答任务。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 5 分钟

视觉语言 AI——即同时理解图像和文字的模型——是人工智能中发展最快速的领域之一。Salesforce 的 LAVIS（视觉语言智能库）提供了一个统一的框架，用于训练、评估和部署各种视觉语言模型，包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

LAVIS 同时为研究人员和实践者设计。研究人员可以获得最先进模型的干净实现及可重现的基准，而实践者可以获得精简的 API，将这些模型应用于图像标题生成、视觉问答和跨模态检索等实际任务。

支持的模型

模型	任务	年份	参数量
BLIP	标题生成、检索、VQA	2022	470M
BLIP-2	标题生成、VQA、检索	2023	1.2B
InstructBLIP	指令跟随 VQA	2023	1.2B
ALBEF	检索、基础定位	2021	210M
ALPRO	视频语言任务	2022	250M

模型架构

flowchart LR
    A[图像] --> B[视觉编码器<br/>ViT]
    C[文字] --> D[文字编码器<br/>BERT]
    B --> E[跨模态注意力]
    D --> E
    E --> F{融合策略}
    F -->|BLIP| G[多模态编码器]
    F -->|BLIP-2| H[Q-Former]
    F -->|InstructBLIP| I[Q-Former + LLM]
    G --> J[输出]
    H --> J
    I --> J

LAVIS 中的每个模型使用不同的融合策略。BLIP 使用标准的多模态编码器，BLIP-2 引入了 Q-Former（一个连接视觉和文字的轻量级 Transformer），而 InstructBLIP 则添加了冻结的 LLM 以实现指令跟随。

任务性能

任务	BLIP-2	InstructBLIP	GPT-4V
VQAv2 准确度	65.0%	73.2%	75.5%
图像标题生成（CIDEr）	136.7	142.3	145.1
零样本检索	62.3%	67.8%	70.2%
OKVQA 准确度	52.4%	57.3%	61.8%

如需更多信息，请访问 LAVIS GitHub 仓库和 LAVIS 文档。

常见问题

Q：LAVIS 建议使用什么 GPU 硬件？ A：BLIP-2 和 InstructBLIP 需要至少 16GB GPU 内存。BLIP 等较小模型可在 8GB 上运行。

Q：我可以在自定义数据上微调 LAVIS 中的模型吗？ A：可以，LAVIS 提供了用于在自定义数据集上微调的训练脚本和配置文件。

Q：LAVIS 支持视频输入吗？ A：是的，通过处理视频语言理解任务的 ALPRO 模型。

Q：LAVIS 与 PyTorch Lightning 兼容吗？ A：是的，LAVIS 使用 PyTorch，并可与 Lightning 集成进行分布式训练。

Q：LAVIS 支持哪些数据集格式？ A：COCO、Visual Genome、SBU Captions，以及通过其数据模块支持自定义 JSON/CSV 格式。

LAVIS：Salesforce 的视觉语言 AI 库

支持的模型

模型架构

任务性能

常见问题

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

LAVIS：Salesforce 的视觉语言 AI 库

支持的模型

模型架构

任务性能

常见问题

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险