LLaMA-VID(大型語言與影片助手)是 ECCV 2024 的研究專案,針對 LLM 影片理解中的根本瓶頸:Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗,但先前的多模態方法每個影片幀消耗 100 到 500 個 Token,使得即使是短暫的 5 分鐘影片片段在計算上也難以負擔。LLaMA-VID 的突破在於每個影片幀僅用 2 個 Token 表示——相較於現有方法實現了 50 倍到 250 倍的壓縮比。
關鍵洞察在於影片幀具有高度冗餘性。幀中的大部分視覺資訊與周圍幀共享:背景、場景設定、光線。LLaMA-VID 引入了雙 Token 表示,將跨幀穩定的內容(上下文 Token)與正在變化的內容(動作 Token)分離。這意味著你可以在 1 FPS 下處理一小時影片(3600 幀),僅使用 7200 個 Token——輕鬆容納在任何現代 LLM 的上下文視窗內。
該專案發表於 ECCV 2024,並已成為高效影片語言建模的基礎參考。其方法影響了後續關於長上下文多模態理解的研究,程式碼庫提供了完整的影片理解任務訓練和推論管線。
LLaMA-VID 的雙 Token 策略是如何運作的?
flowchart LR
A[輸入影片\n60 分鐘,1 FPS\n= 3600 幀] --> B[幀取樣]
B --> C[幀 1]
B --> D[幀 2]
B --> E[幀 N]
C --> F[影像編碼器\nCLIP ViT]
D --> G[影像編碼器\nCLIP ViT]
E --> H[影像編碼器\nCLIP ViT]
F --> I{雙 Token\n壓縮}
G --> I
H --> I
subgraph 幀壓縮
I --> J[上下文 Token\n場景內容\n幾乎相同]
I --> K[動作 Token\n時間變化\n幀間差異]
end
J --> L[影片表示\n總計 7200 Token]
K --> L
L --> M[LLM 解碼器\n基於 LLaMA]
M --> N[影片理解\n問答 / 字幕 / 推理]與其他影片理解方法的比較
| 方法 | 每幀 Token 數 | 最大影片長度(1 FPS) | 所需上下文 | 單 GPU 可行 |
|---|---|---|---|---|
| LLaMA-VID | 2 | 60+ 分鐘 | 7,200 Token | 是(24 GB) |
| Video-LLaMA | 100+ | ~12 分鐘 | 72,000+ Token | 有限 |
| LLaVA-NeXT-Video | 576 | ~3 分鐘 | 103,680 Token | 否 |
| GPT-4V (API) | 可變 | ~10 分鐘 | 100,000+ Token | 不適用 |
| ImageFrame 基線 | 257 | ~8 分鐘 | 92,520 Token | 否 |
主要技術規格
| 規格 | 詳細資訊 |
|---|---|
| 影像編碼器 | CLIP ViT-L/14 |
| LLM 主幹 | LLaMA-2 / LLaMA-3(可設定) |
| Token 壓縮 | 基於學習的查詢 Transformer |
| 每幀 Token 數 | 2(1 上下文 + 1 動作) |
| 最大影片長度 | 60+ 分鐘(1 FPS) |
| 最低 GPU | 24 GB VRAM |
| 發表於 | ECCV 2024 |
安裝與使用
git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt
from llama_vid import LLaMAVID
model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")
video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "前 30 分鐘涵蓋了哪些主題?")
print(result.answer)
print(result.timestamps)
常見問題
什麼是 LLaMA-VID? ECCV 2024 專案,透過將每幀壓縮為僅 2 個 Token(相較於先前方法 50x-250x 壓縮),實現一小時影片理解,使長影片處理在單一 GPU 上可行。
雙 Token 策略是什麼? 每幀產生一個上下文 Token(穩定場景內容)和一個動作 Token(時間變化)。上下文 Token 在幀間高度冗餘,因此 LLM 可以將注意力集中在動作 Token 上以理解動作。
能處理多長的影片? 超過一小時。60 分鐘影片以 1 FPS 僅產生 7,200 Token,完全在現代 LLM 上下文視窗內。
需要什麼硬體? 單一 GPU 搭配 24 GB VRAM 即可處理一小時影片。
基準測試表現? 在 VideoChatGPT、MVBench 和 Video-MME 上達到最先進或具競爭力的水準,長影片理解任務尤為優勢。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!