IA

VACE: El Modelo Todo-en-Uno de Creacion y Edicion de Video de Alibaba (ICCV 2025)

VACE es un modelo unificado de creacion y edicion de video del Tongyi Lab de Alibaba, que unifica tareas de referencia-a-video, video-a-video y edicion con mascara.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VACE: El Modelo Todo-en-Uno de Creacion y Edicion de Video de Alibaba (ICCV 2025)

La generacion y edicion de video han sido manejadas tradicionalmente por modelos separados – un modelo para texto-a-video, otro para estilizacion de video, otro para inpainting. Esta fragmentacion dificulta la construccion de pipelines integrales de produccion de video. VACE (Video All-to-All Creation and Editing) elimina este problema unificando todas las tareas de creacion y edicion de video en un unico modelo de transformador de difusion.

Aceptado en ICCV 2025, VACE es obra del Tongyi Lab de Alibaba. La idea clave detras de VACE es que las tareas de creacion y edicion de video comparten una estructura subyacente comun: todas implican generar o modificar contenido de video basado en alguna combinacion de fotogramas de referencia, descripciones de texto e informacion de mascara.


Que Tareas Puede Realizar VACE?

La arquitectura unificada de VACE permite una amplia gama de tareas de generacion y edicion de video.

graph TD
    A[Modelo Unificado VACE] --> B[Creacion de Video]
    A --> C[Edicion de Video]
    A --> D[Edicion con Mascara]
    B --> E[Texto-a-Video]
    B --> F[Imagen-a-Video]
    B --> G[Referencia-a-Video]
    C --> H[Transferencia de Estilo]
    C --> I[Reemplazo de Objetos]
    C --> J[Cambio de Fondo]
    D --> K[Inpainting de Video]
    D --> L[Outpainting de Video]
    D --> M[Eliminacion de Objetos]
Categoria de TareaTipo de EntradaSalidaCaso de Uso
Texto-a-VideoPrompt de textoVideo generadoCrear B-roll desde descripcion
Imagen-a-VideoImagen + textoVideo animadoDar vida a una foto
Referencia-a-VideoVideo de referencia + textoVideo estilizadoAplicar movimiento de un clip
Transferencia de EstiloVideo fuente + texto de estiloVideo estilizadoConvertir a estilo anime
Inpainting de VideoVideo + mascaraVideo reparadoEliminar objetos no deseados
Outpainting de VideoVideo + mascara de expansionVideo extendidoExpandir bordes del video

Como se Compara la Arquitectura de VACE con Otros Metodos?

AspectoVACE (Unificado)Modelos EspecificosEnfoques Multi-Adaptador
ArquitecturaUn solo modelo baseModelo separado por tareaBase + adaptadores separados
EntrenamientoConjuntoIndependienteSecuencial de adaptadores
Eficiencia de parametrosUn conjunto de pesosN conjuntosBase + N adaptadores
Transferencia entre tareasComparticion naturalSin transferenciaLimitada por aislamiento

Variantes del Modelo y Hardware Requerido

VarianteParametrosGPU RecomendadaVelocidadCalidad
VACE Completo~7BA100 / H100Tiempo real (A100)Mejor
VACE Ligero~3BRTX 4090 / A10GRapido (RTX 4090)Alta
CaracteristicaModelo CompletoModelo Ligero
Resolucion1024x576720x480
Fotogramas16-328-16
Memoria GPU~24 GB~12 GB
Tiempo de inferencia~15s (A100, 16 fotogramas)~20s (RTX 4090, 16 fotogramas)

FAQ

Que es VACE? Modelo unificado de generacion y edicion de video del Tongyi Lab de Alibaba, aceptado en ICCV 2025.

Que tareas soporta? Creacion de video, edicion de video y edicion con mascara.

Variantes disponibles? Completo y ligero. El completo ofrece maxima calidad; el ligero esta optimizado para GPU de consumo.

Arquitectura? Transformador de difusion unificado con diseno agnostico a la tarea.

Como instalarlo? Clonar el repositorio. A100 recomendado para el modelo completo; RTX 4090 para el ligero.


Lecturas Adicionales

TAG
CATEGORIES