AI

LTX-2: Modelo Fundamental de Audio-Video 4K de Código Abierto de Lightricks

LTX-2 es el primer modelo fundamental de audio-video basado en DiT de código abierto que genera audio y video 4K sincronizados a hasta 50fps en GPUs de consumo.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LTX-2: Modelo Fundamental de Audio-Video 4K de Código Abierto de Lightricks

LTX-2 es el primer modelo fundamental de audio-video basado en Diffusion Transformer (DiT) de código abierto, capaz de generar contenido de audio-video 4K sincronizado a hasta 50 fotogramas por segundo.

Repositorio: github.com/Lightricks/LTX-2


Arquitectura

CaracterísticaLTX-2 (DiT)Modelos U-Net Tradicionales
Sincronización Audio-VideoGeneración conjunta nativaPipelines separados
Escalado de ResoluciónEscala a 4KTípicamente limitado a 1080p
Fotogramas por segundoHasta 50fpsTípicamente 24-30fps
Coherencia TemporalAtención Transformer entre fotogramasCapas temporales añadidas
GPU de consumoSí (16-24 GB VRAM)Varía ampliamente

Pipelines Soportados

PipelineEntradaResoluciónTiempo de Generación (24 GB)
Texto a VideoPrompt de textoHasta 4K2-5 minutos
Imagen a VideoImagen + texto opcionalHasta 4K1-4 minutos
Video a VideoVideo + prompt de estiloHasta 4K3-8 minutos
Audio a VideoPista de audio + textoHasta 1080p2-6 minutos

Requisitos de Hardware

CalidadVRAM MínimaVRAM RecomendadaEjemplos de GPU
480p8 GB12 GBRTX 3060, RTX 4060
1080p12 GB16 GBRTX 4070 Ti, RTX 4080
4K16 GB24 GBRTX 4090, RTX 5090

Comparación

ModeloCódigo AbiertoResolución MáxSincronización AudioGPU Consumo
LTX-2 (Lightricks)4KNativa
Stable Video Diffusion1080pNo
Open-Sora1080pNoLimitada
CogVideo720pNo

FAQ

Qué es LTX-2? Modelo fundamental de audio-video DiT de código abierto que genera video y audio 4K sincronizados a 50fps.

Pipelines? Texto a video, imagen a video, video a video, audio a video.

Hardware? 4K requiere 24 GB+ VRAM. 1080p: 16 GB. 480p: 12 GB.

Sincronización de audio? Nativa desde representación latente compartida.

Licencia? Código abierto por Lightricks.

Lecturas Adicionales

TAG
CATEGORIES