"Qué es LLaMA-VID y qué lo hace único?"

"LLaMA-VID (Large Language and Video Assistant) es un proyecto de investigación de ECCV 2024 que permite a los LLMs comprender videos largos de hasta una hora o más representando cada fotograma con solo 2 tokens, una compresión dramática desde los cientos de tokens por fotograma que requerían modelos multimodales anteriores."

"Cuál es la estrategia de doble token en LLaMA-VID?"

"Cada fotograma de video se comprime en dos tokens: un token de contexto que captura el contenido general de la escena, y un token de movimiento que captura los cambios temporales respecto al fotograma anterior. Los tokens de contexto permanecen estables para fotogramas con escenas similares, mientras que solo los tokens de movimiento cambian."

"Qué longitud de video puede manejar LLaMA-VID?"

"LLaMA-VID puede manejar videos que exceden una hora. A 1 FPS, un video de 60 minutos produce 3600 fotogramas, que se traducen en 7200 tokens, bien dentro de las ventanas de contexto de 128K-200K de los LLMs modernos."

"Qué hardware se requiere para ejecutar LLaMA-VID?"

"Se ejecuta en una sola GPU con 24 GB de VRAM para procesar videos de una hora. La compresión de doble token permite que el LLM procese la representación completa del video sin errores de memoria."

"Cómo se desempeña LLaMA-VID en benchmarks?"

"Logra resultados de vanguardia en múltiples benchmarks incluyendo VideoChatGPT, MVBench y tareas de reconocimiento de actividades, destacando especialmente en benchmarks de video largo donde otros modelos se quedan sin contexto."

LLaMA-VID: Una Imagen Vale 2 Tokens -- Comprensión Eficiente de Videos Largos con LLMs

LLaMA-VID es un proyecto de investigación de ECCV 2024 que representa cada fotograma de video con solo 2 tokens, permitiendo la comprensión de videos de una hora en LLMs.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 02, 2026 3 min de lectura

LLaMA-VID es un proyecto de investigación de ECCV 2024 que aborda el cuello de botella fundamental en la comprensión de video con LLMs: la eficiencia de tokens. Mientras que los LLMs modernos presumen ventanas de contexto de 128K a 200K tokens, los enfoques multimodales anteriores consumían de 100 a 500 tokens por fotograma. El avance de LLaMA-VID es representar cada fotograma con solo 2 tokens – una relación de compresión de 50x a 250x sobre los métodos existentes.

La idea clave es que los fotogramas de video son altamente redundantes. LLaMA-VID introduce una representación de doble token que separa lo que es estable entre fotogramas (el token de contexto) de lo que cambia (el token de movimiento).

Repositorio: github.com/JIA-Lab-research/LLaMA-VID

Estrategia de Doble Token

flowchart LR
    A[Video de Entrada\n60 min a 1 FPS\n= 3600 fotogramas] --> B[Muestreo de Fotogramas]

    B --> C[Fotograma 1]
    B --> D[Fotograma 2]
    B --> E[Fotograma N]

    C --> F[Codificador de Imagen\nCLIP ViT]
    D --> G[Codificador de Imagen\nCLIP ViT]
    E --> H[Codificador de Imagen\nCLIP ViT]

    F --> I{Compresión\n de Doble Token}
    G --> I
    H --> I

    subgraph Compresión de Fotograma
        I --> J[Token de Contexto\nContenido de escena\ncasi idéntico]
        I --> K[Token de Movimiento\nCambio temporal\ndelta entre fotogramas]
    end

    J --> L[Representación de Video\n7200 tokens total]
    K --> L

    L --> M[Decodificador LLM\nbasado en LLaMA]
    M --> N[Comprensión de Video\nPreguntas / Subtítulos / Razonamiento]

Comparación con Otros Enfoques

Método	Tokens por Fotograma	Longitud Máxima (1 FPS)	Contexto Requerido	GPU Única Viable
LLaMA-VID	2	60+ minutos	7,200 tokens	Sí (24 GB)
Video-LLaMA	100+	~12 minutos	72,000+ tokens	Limitada
LLaVA-NeXT-Video	576	~3 minutos	103,680 tokens	No
GPT-4V (API)	Variable	~10 minutos	100,000+ tokens	N/A

Especificaciones

Especificación	Detalle
Codificador de Imagen	CLIP ViT-L/14
Backbone LLM	LLaMA-2 / LLaMA-3
Compresión de Tokens	Transformer basado en consultas
Tokens por Fotograma	2 (1 contexto + 1 movimiento)
Longitud Máxima	60+ minutos a 1 FPS
GPU Mínima	24 GB VRAM
Publicado en	ECCV 2024

Instalación

git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt

from llama_vid import LLaMAVID

model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")

video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "Qué temas se cubrieron en los primeros 30 minutos?")
print(result.answer)
print(result.timestamps)

FAQ

Qué es LLaMA-VID? Proyecto ECCV 2024 que permite comprensión de video de una hora comprimiendo cada fotograma en solo 2 tokens (compresión 50x-250x).

Estrategia de doble token? Cada fotograma produce un token de contexto (escena estable) y un token de movimiento (cambios temporales). Los tokens de contexto son redundantes entre fotogramas.

Longitud de video? Más de una hora. Un video de 60 minutos a 1 FPS produce solo 7,200 tokens.

Hardware? Una sola GPU con 24 GB VRAM es suficiente.

Rendimiento? Resultados de vanguardia en VideoChatGPT, MVBench y Video-MME.

LLaMA-VID: Una Imagen Vale 2 Tokens -- Comprensión Eficiente de Videos Largos con LLMs

Estrategia de Doble Token

Comparación con Otros Enfoques

Especificaciones

Instalación

FAQ

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES