視覺語言 AI——即同時理解圖像和文字的模型——是人工智慧中發展最快速的領域之一。Salesforce 的 LAVIS(視覺語言智慧函式庫)提供了一個統一的框架,用於訓練、評估和部署各種視覺語言模型,包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。
LAVIS 同時為研究人員和實踐者設計。研究人員可以獲得最先進模型的乾淨實作及可重現的基準,而實踐者可以獲得精簡的 API,將這些模型應用於圖像標題生成、視覺問答和跨模態檢索等實際任務。
支援的模型
| 模型 | 任務 | 年份 | 參數量 |
|---|---|---|---|
| BLIP | 標題生成、檢索、VQA | 2022 | 470M |
| BLIP-2 | 標題生成、VQA、檢索 | 2023 | 1.2B |
| InstructBLIP | 指令跟隨 VQA | 2023 | 1.2B |
| ALBEF | 檢索、基礎定位 | 2021 | 210M |
| ALPRO | 影片語言任務 | 2022 | 250M |
模型架構
flowchart LR
A[圖像] --> B[視覺編碼器<br/>ViT]
C[文字] --> D[文字編碼器<br/>BERT]
B --> E[跨模態注意力]
D --> E
E --> F{融合策略}
F -->|BLIP| G[多模態編碼器]
F -->|BLIP-2| H[Q-Former]
F -->|InstructBLIP| I[Q-Former + LLM]
G --> J[輸出]
H --> J
I --> JLAVIS 中的每個模型使用不同的融合策略。BLIP 使用標準的多模態編碼器,BLIP-2 引入了 Q-Former(一個連接視覺和文字的輕量級 Transformer),而 InstructBLIP 則添加了凍結的 LLM 以實現指令跟隨。
任務效能
| 任務 | BLIP-2 | InstructBLIP | GPT-4V |
|---|---|---|---|
| VQAv2 準確度 | 65.0% | 73.2% | 75.5% |
| 圖像標題生成(CIDEr) | 136.7 | 142.3 | 145.1 |
| 零樣本檢索 | 62.3% | 67.8% | 70.2% |
| OKVQA 準確度 | 52.4% | 57.3% | 61.8% |
如需更多資訊,請造訪 LAVIS GitHub 儲存庫 和 LAVIS 文件。
常見問題
Q:LAVIS 建議使用什麼 GPU 硬體? A:BLIP-2 和 InstructBLIP 需要至少 16GB GPU 記憶體。BLIP 等較小模型可在 8GB 上執行。
Q:我可以在自訂資料上微調 LAVIS 中的模型嗎? A:可以,LAVIS 提供了用於在自訂資料集上微調的訓練腳本和配置檔案。
Q:LAVIS 支援影片輸入嗎? A:是的,透過處理影片語言理解任務的 ALPRO 模型。
Q:LAVIS 與 PyTorch Lightning 相容嗎? A:是的,LAVIS 使用 PyTorch,並可與 Lightning 整合進行分散式訓練。
Q:LAVIS 支援哪些資料集格式? A:COCO、Visual Genome、SBU Captions,以及透過其資料模組支援自訂 JSON/CSV 格式。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!