AI

LLaMA-VID: Una Imagen Vale 2 Tokens -- Comprensión Eficiente de Videos Largos con LLMs

LLaMA-VID es un proyecto de investigación de ECCV 2024 que representa cada fotograma de video con solo 2 tokens, permitiendo la comprensión de videos de una hora en LLMs.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LLaMA-VID: Una Imagen Vale 2 Tokens -- Comprensión Eficiente de Videos Largos con LLMs

LLaMA-VID es un proyecto de investigación de ECCV 2024 que aborda el cuello de botella fundamental en la comprensión de video con LLMs: la eficiencia de tokens. Mientras que los LLMs modernos presumen ventanas de contexto de 128K a 200K tokens, los enfoques multimodales anteriores consumían de 100 a 500 tokens por fotograma. El avance de LLaMA-VID es representar cada fotograma con solo 2 tokens – una relación de compresión de 50x a 250x sobre los métodos existentes.

La idea clave es que los fotogramas de video son altamente redundantes. LLaMA-VID introduce una representación de doble token que separa lo que es estable entre fotogramas (el token de contexto) de lo que cambia (el token de movimiento).

Repositorio: github.com/JIA-Lab-research/LLaMA-VID


Estrategia de Doble Token

Comparación con Otros Enfoques

MétodoTokens por FotogramaLongitud Máxima (1 FPS)Contexto RequeridoGPU Única Viable
LLaMA-VID260+ minutos7,200 tokens (24 GB)
Video-LLaMA100+~12 minutos72,000+ tokensLimitada
LLaVA-NeXT-Video576~3 minutos103,680 tokensNo
GPT-4V (API)Variable~10 minutos100,000+ tokensN/A

Especificaciones

EspecificaciónDetalle
Codificador de ImagenCLIP ViT-L/14
Backbone LLMLLaMA-2 / LLaMA-3
Compresión de TokensTransformer basado en consultas
Tokens por Fotograma2 (1 contexto + 1 movimiento)
Longitud Máxima60+ minutos a 1 FPS
GPU Mínima24 GB VRAM
Publicado enECCV 2024

Instalación

git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt
from llama_vid import LLaMAVID

model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")

video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "Qué temas se cubrieron en los primeros 30 minutos?")
print(result.answer)
print(result.timestamps)

FAQ

Qué es LLaMA-VID? Proyecto ECCV 2024 que permite comprensión de video de una hora comprimiendo cada fotograma en solo 2 tokens (compresión 50x-250x).

Estrategia de doble token? Cada fotograma produce un token de contexto (escena estable) y un token de movimiento (cambios temporales). Los tokens de contexto son redundantes entre fotogramas.

Longitud de video? Más de una hora. Un video de 60 minutos a 1 FPS produce solo 7,200 tokens.

Hardware? Una sola GPU con 24 GB VRAM es suficiente.

Rendimiento? Resultados de vanguardia en VideoChatGPT, MVBench y Video-MME.

Lecturas Adicionales

TAG
CATEGORIES