LLaMA-VID(大型语言与视频助手)是 ECCV 2024 的研究项目,针对 LLM 视频理解中的根本瓶颈:Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口,但先前的多模态方法每个视频帧消耗 100 到 500 个 Token,使得即使是短暂的 5 分钟视频片段在计算上也难以负担。LLaMA-VID 的突破在于每个视频帧仅用 2 个 Token 表示——相较于现有方法实现了 50 倍到 250 倍的压缩比。
关键洞察在于视频帧具有高度冗余性。帧中的大部分视觉信息与周围帧共享:背景、场景设置、光线。LLaMA-VID 引入了双 Token 表示,将跨帧稳定的内容(上下文 Token)与正在变化的内容(动作 Token)分离。这意味着你可以在 1 FPS 下处理一小时视频(3600 帧),仅使用 7200 个 Token——轻松容纳在任何现代 LLM 的上下文窗口内。
双 Token 策略
flowchart LR
A[输入视频\n60 分钟,1 FPS\n= 3600 帧] --> B[帧采样]
B --> C[帧 1]
B --> D[帧 2]
B --> E[帧 N]
C --> F[图像编码器\nCLIP ViT]
D --> G[图像编码器\nCLIP ViT]
E --> H[图像编码器\nCLIP ViT]
F --> I{双 Token\n压缩}
G --> I
H --> I
subgraph 帧压缩
I --> J[上下文 Token\n场景内容\n几乎相同]
I --> K[动作 Token\n时间变化\n帧间差异]
end
J --> L[视频表示\n总计 7200 Token]
K --> L
L --> M[LLM 解码器\n基于 LLaMA]
M --> N[视频理解\n问答 / 字幕 / 推理]与其他方法比较
| 方法 | 每帧 Token 数 | 最大视频长度(1 FPS) | 所需上下文 | 单 GPU 可行 |
|---|---|---|---|---|
| LLaMA-VID | 2 | 60+ 分钟 | 7,200 Token | 是(24 GB) |
| Video-LLaMA | 100+ | ~12 分钟 | 72,000+ Token | 有限 |
| LLaVA-NeXT-Video | 576 | ~3 分钟 | 103,680 Token | 否 |
| GPT-4V (API) | 可变 | ~10 分钟 | 100,000+ Token | 不适用 |
| ImageFrame 基线 | 257 | ~8 分钟 | 92,520 Token | 否 |
技术规格
| 规格 | 详情 |
|---|---|
| 图像编码器 | CLIP ViT-L/14 |
| LLM 主干 | LLaMA-2 / LLaMA-3(可配置) |
| Token 压缩 | 基于学习的查询 Transformer |
| 每帧 Token 数 | 2(1 上下文 + 1 动作) |
| 最大视频长度 | 60+ 分钟(1 FPS) |
| 最低 GPU | 24 GB VRAM |
| 发表于 | ECCV 2024 |
安装与使用
git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt
from llama_vid import LLaMAVID
model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")
video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "前 30 分钟涵盖了哪些主题?")
print(result.answer)
print(result.timestamps)
常见问题
什么是 LLaMA-VID? ECCV 2024 项目,通过将每帧压缩为仅 2 个 Token(相较于先前方法 50x-250x 压缩),实现一小时视频理解,使长视频处理在单个 GPU 上可行。
双 Token 策略是什么? 每帧产生一个上下文 Token(稳定场景内容)和一个动作 Token(时间变化)。上下文 Token 在帧间高度冗余,因此 LLM 可以将注意力集中在动作 Token 上以理解动作。
能处理多长的视频? 超过一小时。60 分钟视频以 1 FPS 仅产生 7,200 Token,完全在现代 LLM 上下文窗口内。
需要什么硬件? 单个 GPU 搭配 24 GB VRAM 即可处理一小时视频。
基准测试表现? 在 VideoChatGPT、MVBench 和 Video-MME 上达到最先进或具竞争力的水平,长视频理解任务尤为优势。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!