AI

LLaMA-VID:一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

LLaMA-VID 是 ECCV 2024 的研究项目,每个视频帧仅用 2 个 Token 表示,实现 LLM 对长达一小时视频的理解。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LLaMA-VID:一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

LLaMA-VID(大型语言与视频助手)是 ECCV 2024 的研究项目,针对 LLM 视频理解中的根本瓶颈:Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口,但先前的多模态方法每个视频帧消耗 100 到 500 个 Token,使得即使是短暂的 5 分钟视频片段在计算上也难以负担。LLaMA-VID 的突破在于每个视频帧仅用 2 个 Token 表示——相较于现有方法实现了 50 倍到 250 倍的压缩比。

关键洞察在于视频帧具有高度冗余性。帧中的大部分视觉信息与周围帧共享:背景、场景设置、光线。LLaMA-VID 引入了双 Token 表示,将跨帧稳定的内容(上下文 Token)与正在变化的内容(动作 Token)分离。这意味着你可以在 1 FPS 下处理一小时视频(3600 帧),仅使用 7200 个 Token——轻松容纳在任何现代 LLM 的上下文窗口内。

仓库github.com/JIA-Lab-research/LLaMA-VID


双 Token 策略

与其他方法比较

方法每帧 Token 数最大视频长度(1 FPS)所需上下文单 GPU 可行
LLaMA-VID260+ 分钟7,200 Token(24 GB)
Video-LLaMA100+~12 分钟72,000+ Token有限
LLaVA-NeXT-Video576~3 分钟103,680 Token
GPT-4V (API)可变~10 分钟100,000+ Token不适用
ImageFrame 基线257~8 分钟92,520 Token

技术规格

规格详情
图像编码器CLIP ViT-L/14
LLM 主干LLaMA-2 / LLaMA-3(可配置)
Token 压缩基于学习的查询 Transformer
每帧 Token 数2(1 上下文 + 1 动作)
最大视频长度60+ 分钟(1 FPS)
最低 GPU24 GB VRAM
发表于ECCV 2024

安装与使用

git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt
from llama_vid import LLaMAVID

model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")

video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "前 30 分钟涵盖了哪些主题?")

print(result.answer)
print(result.timestamps)

常见问题

什么是 LLaMA-VID? ECCV 2024 项目,通过将每帧压缩为仅 2 个 Token(相较于先前方法 50x-250x 压缩),实现一小时视频理解,使长视频处理在单个 GPU 上可行。

双 Token 策略是什么? 每帧产生一个上下文 Token(稳定场景内容)和一个动作 Token(时间变化)。上下文 Token 在帧间高度冗余,因此 LLM 可以将注意力集中在动作 Token 上以理解动作。

能处理多长的视频? 超过一小时。60 分钟视频以 1 FPS 仅产生 7,200 Token,完全在现代 LLM 上下文窗口内。

需要什么硬件? 单个 GPU 搭配 24 GB VRAM 即可处理一小时视频。

基准测试表现? 在 VideoChatGPT、MVBench 和 Video-MME 上达到最先进或具竞争力的水平,长视频理解任务尤为优势。

扩展阅读

TAG
CATEGORIES