LAVIS：Salesforce 的視覺語言 AI 函式庫

LAVIS 是一個用於視覺語言研究的深度學習函式庫，支援 BLIP、BLIP-2、InstructBLIP 以及圖文檢索、標題生成和問答任務。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 05, 2026 閱讀 5 分鐘

視覺語言 AI——即同時理解圖像和文字的模型——是人工智慧中發展最快速的領域之一。Salesforce 的 LAVIS（視覺語言智慧函式庫）提供了一個統一的框架，用於訓練、評估和部署各種視覺語言模型，包括 BLIP、BLIP-2、InstructBLIP 和 ALBEF。

LAVIS 同時為研究人員和實踐者設計。研究人員可以獲得最先進模型的乾淨實作及可重現的基準，而實踐者可以獲得精簡的 API，將這些模型應用於圖像標題生成、視覺問答和跨模態檢索等實際任務。

支援的模型

模型	任務	年份	參數量
BLIP	標題生成、檢索、VQA	2022	470M
BLIP-2	標題生成、VQA、檢索	2023	1.2B
InstructBLIP	指令跟隨 VQA	2023	1.2B
ALBEF	檢索、基礎定位	2021	210M
ALPRO	影片語言任務	2022	250M

模型架構

flowchart LR
    A[圖像] --> B[視覺編碼器<br/>ViT]
    C[文字] --> D[文字編碼器<br/>BERT]
    B --> E[跨模態注意力]
    D --> E
    E --> F{融合策略}
    F -->|BLIP| G[多模態編碼器]
    F -->|BLIP-2| H[Q-Former]
    F -->|InstructBLIP| I[Q-Former + LLM]
    G --> J[輸出]
    H --> J
    I --> J

LAVIS 中的每個模型使用不同的融合策略。BLIP 使用標準的多模態編碼器，BLIP-2 引入了 Q-Former（一個連接視覺和文字的輕量級 Transformer），而 InstructBLIP 則添加了凍結的 LLM 以實現指令跟隨。

任務效能

任務	BLIP-2	InstructBLIP	GPT-4V
VQAv2 準確度	65.0%	73.2%	75.5%
圖像標題生成（CIDEr）	136.7	142.3	145.1
零樣本檢索	62.3%	67.8%	70.2%
OKVQA 準確度	52.4%	57.3%	61.8%

如需更多資訊，請造訪 LAVIS GitHub 儲存庫和 LAVIS 文件。

常見問題

Q：LAVIS 建議使用什麼 GPU 硬體？ A：BLIP-2 和 InstructBLIP 需要至少 16GB GPU 記憶體。BLIP 等較小模型可在 8GB 上執行。

Q：我可以在自訂資料上微調 LAVIS 中的模型嗎？ A：可以，LAVIS 提供了用於在自訂資料集上微調的訓練腳本和配置檔案。

Q：LAVIS 支援影片輸入嗎？ A：是的，透過處理影片語言理解任務的 ALPRO 模型。

Q：LAVIS 與 PyTorch Lightning 相容嗎？ A：是的，LAVIS 使用 PyTorch，並可與 Lightning 整合進行分散式訓練。

Q：LAVIS 支援哪些資料集格式？ A：COCO、Visual Genome、SBU Captions，以及透過其資料模組支援自訂 JSON/CSV 格式。

LAVIS：Salesforce 的視覺語言 AI 函式庫

支援的模型

模型架構

任務效能

常見問題

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

LAVIS：Salesforce 的視覺語言 AI 函式庫

支援的模型

模型架構

任務效能

常見問題

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險