视频理解

AI May 02, 2026

LLaMA-VID：一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

LLaMA-VID（大型语言与视频助手）是 ECCV 2024 的研究项目，针对 LLM 视频理解中的根本瓶颈：Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口，但先前的多模态方法每个视频帧消耗 100 到 500 个 Token，使得即使是短暂的 …