AI

LAVIS:Salesforce 的视觉语言 AI 库

LAVIS 是一个用于视觉语言研究的深度学习库,支持 BLIP、BLIP-2、InstructBLIP 以及图文检索、标题生成和问答任务。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LAVIS:Salesforce 的视觉语言 AI 库

视觉语言 AI——即同时理解图像和文字的模型——是人工智能中发展最快速的领域之一。Salesforce 的 LAVIS(视觉语言智能库)提供了一个统一的框架,用于训练、评估和部署各种视觉语言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

LAVIS 同时为研究人员和实践者设计。研究人员可以获得最先进模型的干净实现及可重现的基准,而实践者可以获得精简的 API,将这些模型应用于图像标题生成、视觉问答和跨模态检索等实际任务。

支持的模型

模型任务年份参数量
BLIP标题生成、检索、VQA2022470M
BLIP-2标题生成、VQA、检索20231.2B
InstructBLIP指令跟随 VQA20231.2B
ALBEF检索、基础定位2021210M
ALPRO视频语言任务2022250M

模型架构

LAVIS 中的每个模型使用不同的融合策略。BLIP 使用标准的多模态编码器,BLIP-2 引入了 Q-Former(一个连接视觉和文字的轻量级 Transformer),而 InstructBLIP 则添加了冻结的 LLM 以实现指令跟随。

任务性能

任务BLIP-2InstructBLIPGPT-4V
VQAv2 准确度65.0%73.2%75.5%
图像标题生成(CIDEr)136.7142.3145.1
零样本检索62.3%67.8%70.2%
OKVQA 准确度52.4%57.3%61.8%

如需更多信息,请访问 LAVIS GitHub 仓库LAVIS 文档

常见问题

Q:LAVIS 建议使用什么 GPU 硬件? A:BLIP-2 和 InstructBLIP 需要至少 16GB GPU 内存。BLIP 等较小模型可在 8GB 上运行。

Q:我可以在自定义数据上微调 LAVIS 中的模型吗? A:可以,LAVIS 提供了用于在自定义数据集上微调的训练脚本和配置文件。

Q:LAVIS 支持视频输入吗? A:是的,通过处理视频语言理解任务的 ALPRO 模型。

Q:LAVIS 与 PyTorch Lightning 兼容吗? A:是的,LAVIS 使用 PyTorch,并可与 Lightning 集成进行分布式训练。

Q:LAVIS 支持哪些数据集格式? A:COCO、Visual Genome、SBU Captions,以及通过其数据模块支持自定义 JSON/CSV 格式。

TAG
CATEGORIES