影片理解

AI May 02, 2026

LLaMA-VID：一張圖片僅需 2 個 Token——實現 LLM 高效長影片理解

LLaMA-VID（大型語言與影片助手）是 ECCV 2024 的研究專案，針對 LLM 影片理解中的根本瓶頸：Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗，但先前的多模態方法每個影片幀消耗 100 到 500 個 Token，使得即使是短暫的 …