LTX-2 es el primer modelo fundamental de audio-video basado en Diffusion Transformer (DiT) de código abierto, capaz de generar contenido de audio-video 4K sincronizado a hasta 50 fotogramas por segundo.
Repositorio: github.com/Lightricks/LTX-2
Arquitectura
| Característica | LTX-2 (DiT) | Modelos U-Net Tradicionales |
|---|---|---|
| Sincronización Audio-Video | Generación conjunta nativa | Pipelines separados |
| Escalado de Resolución | Escala a 4K | Típicamente limitado a 1080p |
| Fotogramas por segundo | Hasta 50fps | Típicamente 24-30fps |
| Coherencia Temporal | Atención Transformer entre fotogramas | Capas temporales añadidas |
| GPU de consumo | Sí (16-24 GB VRAM) | Varía ampliamente |
graph TD
subgraph "Arquitectura LTX-2"
A[Entrada: Texto / Imagen / Video / Audio] --> B[Codificador Espaciotemporal]
B --> C[Backbone DiT]
C --> D[Decodificador de Video]
C --> E[Decodificador de Audio]
D --> F[Salida: Video 4K hasta 50fps]
E --> G[Salida: Audio Sincronizado]
endPipelines Soportados
| Pipeline | Entrada | Resolución | Tiempo de Generación (24 GB) |
|---|---|---|---|
| Texto a Video | Prompt de texto | Hasta 4K | 2-5 minutos |
| Imagen a Video | Imagen + texto opcional | Hasta 4K | 1-4 minutos |
| Video a Video | Video + prompt de estilo | Hasta 4K | 3-8 minutos |
| Audio a Video | Pista de audio + texto | Hasta 1080p | 2-6 minutos |
Requisitos de Hardware
| Calidad | VRAM Mínima | VRAM Recomendada | Ejemplos de GPU |
|---|---|---|---|
| 480p | 8 GB | 12 GB | RTX 3060, RTX 4060 |
| 1080p | 12 GB | 16 GB | RTX 4070 Ti, RTX 4080 |
| 4K | 16 GB | 24 GB | RTX 4090, RTX 5090 |
Comparación
| Modelo | Código Abierto | Resolución Máx | Sincronización Audio | GPU Consumo |
|---|---|---|---|---|
| LTX-2 (Lightricks) | Sí | 4K | Nativa | Sí |
| Stable Video Diffusion | Sí | 1080p | No | Sí |
| Open-Sora | Sí | 1080p | No | Limitada |
| CogVideo | Sí | 720p | No | Sí |
FAQ
Qué es LTX-2? Modelo fundamental de audio-video DiT de código abierto que genera video y audio 4K sincronizados a 50fps.
Pipelines? Texto a video, imagen a video, video a video, audio a video.
Hardware? 4K requiere 24 GB+ VRAM. 1080p: 16 GB. 480p: 12 GB.
Sincronización de audio? Nativa desde representación latente compartida.
Licencia? Código abierto por Lightricks.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!