AI

LLaMA-VID:一張圖片僅需 2 個 Token——實現 LLM 高效長影片理解

LLaMA-VID 是 ECCV 2024 的研究專案,每個影片幀僅用 2 個 Token 表示,實現 LLM 對長達一小時影片的理解。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LLaMA-VID:一張圖片僅需 2 個 Token——實現 LLM 高效長影片理解

LLaMA-VID(大型語言與影片助手)是 ECCV 2024 的研究專案,針對 LLM 影片理解中的根本瓶頸:Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗,但先前的多模態方法每個影片幀消耗 100 到 500 個 Token,使得即使是短暫的 5 分鐘影片片段在計算上也難以負擔。LLaMA-VID 的突破在於每個影片幀僅用 2 個 Token 表示——相較於現有方法實現了 50 倍到 250 倍的壓縮比。

關鍵洞察在於影片幀具有高度冗餘性。幀中的大部分視覺資訊與周圍幀共享:背景、場景設定、光線。LLaMA-VID 引入了雙 Token 表示,將跨幀穩定的內容(上下文 Token)與正在變化的內容(動作 Token)分離。這意味著你可以在 1 FPS 下處理一小時影片(3600 幀),僅使用 7200 個 Token——輕鬆容納在任何現代 LLM 的上下文視窗內。

該專案發表於 ECCV 2024,並已成為高效影片語言建模的基礎參考。其方法影響了後續關於長上下文多模態理解的研究,程式碼庫提供了完整的影片理解任務訓練和推論管線。

儲存庫github.com/JIA-Lab-research/LLaMA-VID


LLaMA-VID 的雙 Token 策略是如何運作的?

與其他影片理解方法的比較

方法每幀 Token 數最大影片長度(1 FPS)所需上下文單 GPU 可行
LLaMA-VID260+ 分鐘7,200 Token(24 GB)
Video-LLaMA100+~12 分鐘72,000+ Token有限
LLaVA-NeXT-Video576~3 分鐘103,680 Token
GPT-4V (API)可變~10 分鐘100,000+ Token不適用
ImageFrame 基線257~8 分鐘92,520 Token

主要技術規格

規格詳細資訊
影像編碼器CLIP ViT-L/14
LLM 主幹LLaMA-2 / LLaMA-3(可設定)
Token 壓縮基於學習的查詢 Transformer
每幀 Token 數2(1 上下文 + 1 動作)
最大影片長度60+ 分鐘(1 FPS)
最低 GPU24 GB VRAM
發表於ECCV 2024

安裝與使用

git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt
from llama_vid import LLaMAVID

model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")

video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "前 30 分鐘涵蓋了哪些主題?")

print(result.answer)
print(result.timestamps)

常見問題

什麼是 LLaMA-VID? ECCV 2024 專案,透過將每幀壓縮為僅 2 個 Token(相較於先前方法 50x-250x 壓縮),實現一小時影片理解,使長影片處理在單一 GPU 上可行。

雙 Token 策略是什麼? 每幀產生一個上下文 Token(穩定場景內容)和一個動作 Token(時間變化)。上下文 Token 在幀間高度冗餘,因此 LLM 可以將注意力集中在動作 Token 上以理解動作。

能處理多長的影片? 超過一小時。60 分鐘影片以 1 FPS 僅產生 7,200 Token,完全在現代 LLM 上下文視窗內。

需要什麼硬體? 單一 GPU 搭配 24 GB VRAM 即可處理一小時影片。

基準測試表現? 在 VideoChatGPT、MVBench 和 Video-MME 上達到最先進或具競爭力的水準,長影片理解任務尤為優勢。

延伸閱讀

TAG