LLaMA-VID es un proyecto de investigación de ECCV 2024 que aborda el cuello de botella fundamental en la comprensión de video con LLMs: la eficiencia de tokens. Mientras que los LLMs modernos presumen ventanas de contexto de 128K a 200K tokens, los enfoques multimodales anteriores consumían de 100 a 500 tokens por fotograma. El avance de LLaMA-VID es representar cada fotograma con solo 2 tokens – una relación de compresión de 50x a 250x sobre los métodos existentes.
La idea clave es que los fotogramas de video son altamente redundantes. LLaMA-VID introduce una representación de doble token que separa lo que es estable entre fotogramas (el token de contexto) de lo que cambia (el token de movimiento).
Repositorio: github.com/JIA-Lab-research/LLaMA-VID
Estrategia de Doble Token
flowchart LR
A[Video de Entrada\n60 min a 1 FPS\n= 3600 fotogramas] --> B[Muestreo de Fotogramas]
B --> C[Fotograma 1]
B --> D[Fotograma 2]
B --> E[Fotograma N]
C --> F[Codificador de Imagen\nCLIP ViT]
D --> G[Codificador de Imagen\nCLIP ViT]
E --> H[Codificador de Imagen\nCLIP ViT]
F --> I{Compresión\n de Doble Token}
G --> I
H --> I
subgraph Compresión de Fotograma
I --> J[Token de Contexto\nContenido de escena\ncasi idéntico]
I --> K[Token de Movimiento\nCambio temporal\ndelta entre fotogramas]
end
J --> L[Representación de Video\n7200 tokens total]
K --> L
L --> M[Decodificador LLM\nbasado en LLaMA]
M --> N[Comprensión de Video\nPreguntas / Subtítulos / Razonamiento]Comparación con Otros Enfoques
| Método | Tokens por Fotograma | Longitud Máxima (1 FPS) | Contexto Requerido | GPU Única Viable |
|---|---|---|---|---|
| LLaMA-VID | 2 | 60+ minutos | 7,200 tokens | Sí (24 GB) |
| Video-LLaMA | 100+ | ~12 minutos | 72,000+ tokens | Limitada |
| LLaVA-NeXT-Video | 576 | ~3 minutos | 103,680 tokens | No |
| GPT-4V (API) | Variable | ~10 minutos | 100,000+ tokens | N/A |
Especificaciones
| Especificación | Detalle |
|---|---|
| Codificador de Imagen | CLIP ViT-L/14 |
| Backbone LLM | LLaMA-2 / LLaMA-3 |
| Compresión de Tokens | Transformer basado en consultas |
| Tokens por Fotograma | 2 (1 contexto + 1 movimiento) |
| Longitud Máxima | 60+ minutos a 1 FPS |
| GPU Mínima | 24 GB VRAM |
| Publicado en | ECCV 2024 |
Instalación
git clone https://github.com/JIA-Lab-research/LLaMA-VID.git
cd LLaMA-VID
pip install -r requirements.txt
from llama_vid import LLaMAVID
model = LLaMAVID.from_pretrained("jia-lab/llama-vid-7b")
video_path = "lecture_1hour.mp4"
result = model.ask(video_path, "Qué temas se cubrieron en los primeros 30 minutos?")
print(result.answer)
print(result.timestamps)
FAQ
Qué es LLaMA-VID? Proyecto ECCV 2024 que permite comprensión de video de una hora comprimiendo cada fotograma en solo 2 tokens (compresión 50x-250x).
Estrategia de doble token? Cada fotograma produce un token de contexto (escena estable) y un token de movimiento (cambios temporales). Los tokens de contexto son redundantes entre fotogramas.
Longitud de video? Más de una hora. Un video de 60 minutos a 1 FPS produce solo 7,200 tokens.
Hardware? Una sola GPU con 24 GB VRAM es suficiente.
Rendimiento? Resultados de vanguardia en VideoChatGPT, MVBench y Video-MME.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!