AI

VILA:NVIDIA NVlabs 的開源視覺語言模型家族

VILA 是 NVIDIA Labs 推出的一系列最先進的 VLM,適用於多圖像推理、影片理解和視覺鏈式思考,涵蓋從邊緣到雲端。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VILA:NVIDIA NVlabs 的開源視覺語言模型家族

能夠同時推理圖像和文字的視覺語言模型(VLM)已成為 AI 研究中最活躍的領域之一。由 NVIDIA Labs(NVlabs)開發的 VILA(視覺語言模型)代表了一個全面的開源 VLM 家族,專為多圖像推理、影片理解和視覺鏈式思考而設計。這些模型設計為可從邊緣裝置擴展到雲端部署,適用於機器人技術、影片分析和文件理解。

VILA 家族託管於 github.com/NVlabs/VILA,已歷經數代演進——從 VILA 1.0 到 NVILA 和 LongVILA——每一代都引入了新的能力。VILA 模型建立在「先縮放再壓縮」的理念之上,首先在高解析度圖像上訓練以最大化感知品質,然後壓縮視覺標記以實現高效推論。這種方法在影片理解基準測試上達到了最先進的結果,同時保持部署的實用性。

VILA 與其他開源 VLM 的區別在於其對影片理解的重視。大多數 VLM 只處理單張圖像,而 VILA 能原生處理影片輸入,在畫面之間進行時間推理。這使其特別適合監控影片分析、自動駕駛感知和內容審核等應用。

什麼是 VILA?

VILA 是 NVIDIA Labs 開發的一系列視覺語言模型,用於跨圖像、影片和文字的多模態推理。它支援多圖像輸入、影片理解、視覺鏈式思考推理,並且可以從邊緣裝置部署到資料中心 GPU。該專案在 NVIDIA Open Model License 下完全開源。

有哪些不同的 VILA 模型變體?

VILA 已歷經數個主要版本的演進,各有不同的特點。

模型發佈亮點
VILA 1.02024基礎 VLM,交錯圖像-文字預訓練
VILA 1.52024改進的視覺編碼器,更好的多圖像推理
NVILA2025「先縮放再壓縮」架構,高效的訓練和推論
LongVILA2025擴展上下文,用於長篇影片理解(最多 4096 幀)

每個版本都建立在之前的基礎上,增加新能力的同時保持常見視覺語言任務的向後相容性。

什麼是「先縮放再壓縮」方法?

NVILA 的先縮放再壓縮技術是 VILA 家族的關鍵創新。

階段發生什麼效果
縮放在高解析度圖像(768x768+)上訓練視覺編碼器最大化感知品質
壓縮透過空間/時間壓縮減少視覺標記最小化 FLOPs 和記憶體
微調使用壓縮後的標記進行端到端訓練針對任務特定效能最佳化
部署使用壓縮標記進行推論快速推論,無品質損失

這種兩階段方法使 VILA 模型能夠保持高解析度處理的視覺保真度,同時將計算成本維持在與低解析度模型相當的水平。

VILA 如何處理影片理解?

VILA 透過取樣畫面並在畫面之間應用時間推理來處理影片。LongVILA 將此能力顯著擴展。

能力VILA 1.5NVILALongVILA
最大幀數641284096
影片長度約 10 秒約 30 秒約 5 分鐘
時間推理基礎中級進階(動作圖)
基準測試(Video-MME)56.162.368.7
上下文視窗4K 標記8K 標記256K 標記

LongVILA 的擴展上下文能夠理解長篇影片內容,如教學課程、體育轉播和監控錄影。

VILA 可以部署在哪些地方?

VILA 模型設計為可靈活部署,從邊緣到雲端。

# 使用 Transformers 函式庫搭配 VILA
from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained("NVlabs/NVILA-8B", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("NVlabs/NVILA-8B", trust_remote_code=True)

# 處理圖像和文字
inputs = processor(text="Describe this image", images=["photo.jpg"], return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=200)
部署目標GPU使用案例
邊緣裝置Jetson Orin即時影片分析
單 GPURTX 4090、L40S圖像標題生成、問答
多 GPUA100、H100長篇影片理解
雲端 API任何 NVIDIA GPU可擴展 VLM 服務
NVIDIA NIM所有 NVIDIA GPU使用預建容器的最佳化推論

常見問題

什麼是 VILA?

VILA 是 NVIDIA Labs 推出的一系列開源視覺語言模型,能夠推理圖像、影片和文字。它支援多圖像推理、影片理解和視覺鏈式思考。

有哪些不同的 VILA 模型變體?

VILA 1.0(基礎)、VILA 1.5(改進的多圖像推理)、NVILA(先縮放再壓縮架構)和 LongVILA(擴展上下文,用於最多 4096 幀的長篇影片)。

「先縮放再壓縮」方法是如何運作的?

首先,視覺編碼器在高解析度圖像上訓練以最大化感知品質。然後,視覺標記透過空間和時間壓縮進行壓縮,以減少 FLOPs 和記憶體。這在實現高效推論的同時達到了高品質。

VILA 如何處理影片理解?

VILA 取樣影片畫面並在畫面之間應用時間推理。LongVILA 將其擴展到 4096 幀(約 5 分鐘的影片),具有 256K 標記的上下文視窗,實現長篇影片理解。

VILA 如何部署?

VILA 支援從邊緣(Jetson Orin)到雲端(A100/H100 叢集)的部署。模型可在 Hugging Face 上取得,並可與 Transformers 函式庫或 NVIDIA NIM 微服務一起使用。

延伸閱讀

TAG