"什么是 LLaMA-VID？它的独特之处在哪里？"

"LLaMA-VID（大型语言与视频助手）是 ECCV 2024 的研究项目，让大型语言模型能够理解长达一小时或更长的视频，每个视频帧仅用 2 个 Token 表示。这相较于先前多模态模型每帧数百个 Token 的需求是巨大的压缩，使得在单个 GPU 上处理一小时视频在计算上变得可行。"

"LLaMA-VID 的双 Token 策略是什么？"

"双 Token 策略是 LLaMA-VID 的核心创新。每个视频帧被压缩为两个 Token：一个上下文 Token 捕捉整体场景内容（该帧中有什么），一个动作 Token 捕捉与前一帧的时间变化（什么移动了）。上下文 Token 对于相似场景的帧保持稳定，而只有动作 Token 会变化。这使得 1 FPS 的一小时视频（3600 帧）仅需 7200 个 Token 表示，可舒适地容纳在现代 LLM 的上下文窗口中。"

"LLaMA-VID 能处理多长的视频？"

"LLaMA-VID 可处理超过一小时的视频。以 1 FPS 采样，60 分钟的视频产生 3600 帧，转换为 7200 个 Token（每帧 2 个）——完全在现代 LLM 128K-200K 的上下文窗口范围内。相比之下，先前方法每帧使用 100+ 个 Token，同样的视频会产生 360,000+ 个 Token，远远超出任何当前的上下文窗口。"

"运行 LLaMA-VID 需要什么硬件？"

"LLaMA-VID 设计为高效能。它在具有 24 GB VRAM 的单个 GPU 上即可处理一小时视频。双 Token 压缩是关键因素：由于视频被压缩为如此少的 Token，LLM 可以处理整个视频表示，而不会出现其他视频理解模型常见的内存不足错误。"

"LLaMA-VID 在视频理解基准测试中表现如何？"

"LLaMA-VID 在多个视频理解基准测试中达到了最先进或具竞争力的结果，包括 VideoChatGPT、MVBench 和动作识别任务。它在长视频基准测试中尤其出色，其他模型在这些测试中会耗尽上下文或丢失早期帧的信息。在 Video-MME 基准测试中，LLaMA-VID 显著优于缺乏高效帧压缩的方法。"

LLaMA-VID：一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

LLaMA-VID 是 ECCV 2024 的研究项目，每个视频帧仅用 2 个 Token 表示，实现 LLM 对长达一小时视频的理解。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 02, 2026 阅读 6 分钟

LLaMA-VID（大型语言与视频助手）是 ECCV 2024 的研究项目，针对 LLM 视频理解中的根本瓶颈：Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口，但先前的多模态方法每个视频帧消耗 100 到 500 个 Token，使得即使是短暂的 5 分钟视频片段在计算上也难以负担。LLaMA-VID 的突破在于每个视频帧仅用 2 个 Token 表示——相较于现有方法实现了 50 倍到 250 倍的压缩比。

关键洞察在于视频帧具有高度冗余性。帧中的大部分视觉信息与周围帧共享：背景、场景设置、光线。LLaMA-VID 引入了双 Token 表示，将跨帧稳定的内容（上下文 Token）与正在变化的内容（动作 Token）分离。这意味着你可以在 1 FPS 下处理一小时视频（3600 帧），仅使用 7200 个 Token——轻松容纳在任何现代 LLM 的上下文窗口内。

仓库：github.com/JIA-Lab-research/LLaMA-VID

双 Token 策略

flowchart LR
    A[输入视频\n60 分钟，1 FPS\n= 3600 帧] --> B[帧采样]

    B --> C[帧 1]
    B --> D[帧 2]
    B --> E[帧 N]

    C --> F[图像编码器\nCLIP ViT]
    D --> G[图像编码器\nCLIP ViT]
    E --> H[图像编码器\nCLIP ViT]

    F --> I{双 Token\n压缩}
    G --> I
    H --> I

    subgraph 帧压缩
        I --> J[上下文 Token\n场景内容\n几乎相同]
        I --> K[动作 Token\n时间变化\n帧间差异]
    end

    J --> L[视频表示\n总计 7200 Token]
    K --> L

    L --> M[LLM 解码器\n基于 LLaMA]
    M --> N[视频理解\n问答 / 字幕 / 推理]

与其他方法比较

方法	每帧 Token 数	最大视频长度（1 FPS）	所需上下文	单 GPU 可行
LLaMA-VID	2	60+ 分钟	7,200 Token	是（24 GB）
Video-LLaMA	100+	~12 分钟	72,000+ Token	有限
LLaVA-NeXT-Video	576	~3 分钟	103,680 Token	否
GPT-4V (API)	可变	~10 分钟	100,000+ Token	不适用
ImageFrame 基线	257	~8 分钟	92,520 Token	否

技术规格

规格	详情
图像编码器	CLIP ViT-L/14
LLM 主干	LLaMA-2 / LLaMA-3（可配置）
Token 压缩	基于学习的查询 Transformer
每帧 Token 数	2（1 上下文 + 1 动作）
最大视频长度	60+ 分钟（1 FPS）
最低 GPU	24 GB VRAM
发表于	ECCV 2024

安装与使用

git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt

from llama_vid import LLaMAVID

model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")

video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "前 30 分钟涵盖了哪些主题？")

print(result.answer)
print(result.timestamps)

常见问题

什么是 LLaMA-VID？ ECCV 2024 项目，通过将每帧压缩为仅 2 个 Token（相较于先前方法 50x-250x 压缩），实现一小时视频理解，使长视频处理在单个 GPU 上可行。

双 Token 策略是什么？ 每帧产生一个上下文 Token（稳定场景内容）和一个动作 Token（时间变化）。上下文 Token 在帧间高度冗余，因此 LLM 可以将注意力集中在动作 Token 上以理解动作。

能处理多长的视频？ 超过一小时。60 分钟视频以 1 FPS 仅产生 7,200 Token，完全在现代 LLM 上下文窗口内。

需要什么硬件？ 单个 GPU 搭配 24 GB VRAM 即可处理一小时视频。

基准测试表现？ 在 VideoChatGPT、MVBench 和 Video-MME 上达到最先进或具竞争力的水平，长视频理解任务尤为优势。

LLaMA-VID：一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

双 Token 策略

与其他方法比较

技术规格

安装与使用

常见问题

扩展阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

LLaMA-VID：一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

双 Token 策略

与其他方法比较

技术规格

安装与使用

常见问题

扩展阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险