AI

LAVIS:Salesforce 的視覺語言 AI 函式庫

LAVIS 是一個用於視覺語言研究的深度學習函式庫,支援 BLIP、BLIP-2、InstructBLIP 以及圖文檢索、標題生成和問答任務。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LAVIS:Salesforce 的視覺語言 AI 函式庫

視覺語言 AI——即同時理解圖像和文字的模型——是人工智慧中發展最快速的領域之一。Salesforce 的 LAVIS(視覺語言智慧函式庫)提供了一個統一的框架,用於訓練、評估和部署各種視覺語言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

LAVIS 同時為研究人員和實踐者設計。研究人員可以獲得最先進模型的乾淨實作及可重現的基準,而實踐者可以獲得精簡的 API,將這些模型應用於圖像標題生成、視覺問答和跨模態檢索等實際任務。

支援的模型

模型任務年份參數量
BLIP標題生成、檢索、VQA2022470M
BLIP-2標題生成、VQA、檢索20231.2B
InstructBLIP指令跟隨 VQA20231.2B
ALBEF檢索、基礎定位2021210M
ALPRO影片語言任務2022250M

模型架構

LAVIS 中的每個模型使用不同的融合策略。BLIP 使用標準的多模態編碼器,BLIP-2 引入了 Q-Former(一個連接視覺和文字的輕量級 Transformer),而 InstructBLIP 則添加了凍結的 LLM 以實現指令跟隨。

任務效能

任務BLIP-2InstructBLIPGPT-4V
VQAv2 準確度65.0%73.2%75.5%
圖像標題生成(CIDEr)136.7142.3145.1
零樣本檢索62.3%67.8%70.2%
OKVQA 準確度52.4%57.3%61.8%

如需更多資訊,請造訪 LAVIS GitHub 儲存庫LAVIS 文件

常見問題

Q:LAVIS 建議使用什麼 GPU 硬體? A:BLIP-2 和 InstructBLIP 需要至少 16GB GPU 記憶體。BLIP 等較小模型可在 8GB 上執行。

Q:我可以在自訂資料上微調 LAVIS 中的模型嗎? A:可以,LAVIS 提供了用於在自訂資料集上微調的訓練腳本和配置檔案。

Q:LAVIS 支援影片輸入嗎? A:是的,透過處理影片語言理解任務的 ALPRO 模型。

Q:LAVIS 與 PyTorch Lightning 相容嗎? A:是的,LAVIS 使用 PyTorch,並可與 Lightning 整合進行分散式訓練。

Q:LAVIS 支援哪些資料集格式? A:COCO、Visual Genome、SBU Captions,以及透過其資料模組支援自訂 JSON/CSV 格式。

TAG