"VACE (Video All-to-All Creation and Editing) es un modelo unificado de generacion y edicion de video del Tongyi Lab de Alibaba, aceptado en ICCV 2025. Maneja generacion de referencia-a-video, traduccion video-a-video y edicion de video con mascara dentro de un unico framework."

"Que categorias de tareas soporta VACE?"

"VACE soporta tres categorias principales: creacion de video (texto-a-video, imagen-a-video, referencia-a-video), edicion de video (transferencia de estilo video-a-video, reemplazo de objetos) y edicion con mascara (inpainting, outpainting, eliminacion de objetos)."

"Que variantes del modelo estan disponibles?"

"VACE ofrece una variante completa y una variante ligera. El modelo completo proporciona la maxima calidad para todas las tareas, mientras que la variante ligera esta optimizada para inferencia mas rapida en GPU de consumo."

"Cual es la arquitectura de VACE?"

"VACE utiliza una arquitectura de transformador de difusion unificada con un diseno agnostico a la tarea. En lugar de entrenar adaptadores separados para cada tarea, VACE usa un mecanismo de condicionamiento unificado que puede representar cualquier tarea como una combinacion de fotogramas de referencia, fotogramas objetivo e informacion de mascara."

"Como se instala y usa VACE?"

"VACE se puede instalar clonando el repositorio y configurando el entorno. Se recomienda una GPU A100 para el modelo completo, mientras que la variante ligera funciona en RTX 4090."

VACE: El Modelo Todo-en-Uno de Creacion y Edicion de Video de Alibaba (ICCV 2025)

VACE es un modelo unificado de creacion y edicion de video del Tongyi Lab de Alibaba, que unifica tareas de referencia-a-video, video-a-video y edicion con mascara.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 04, 2026 3 min de lectura

La generacion y edicion de video han sido manejadas tradicionalmente por modelos separados – un modelo para texto-a-video, otro para estilizacion de video, otro para inpainting. Esta fragmentacion dificulta la construccion de pipelines integrales de produccion de video. VACE (Video All-to-All Creation and Editing) elimina este problema unificando todas las tareas de creacion y edicion de video en un unico modelo de transformador de difusion.

Aceptado en ICCV 2025, VACE es obra del Tongyi Lab de Alibaba. La idea clave detras de VACE es que las tareas de creacion y edicion de video comparten una estructura subyacente comun: todas implican generar o modificar contenido de video basado en alguna combinacion de fotogramas de referencia, descripciones de texto e informacion de mascara.

Que Tareas Puede Realizar VACE?

La arquitectura unificada de VACE permite una amplia gama de tareas de generacion y edicion de video.

graph TD
    A[Modelo Unificado VACE] --> B[Creacion de Video]
    A --> C[Edicion de Video]
    A --> D[Edicion con Mascara]
    B --> E[Texto-a-Video]
    B --> F[Imagen-a-Video]
    B --> G[Referencia-a-Video]
    C --> H[Transferencia de Estilo]
    C --> I[Reemplazo de Objetos]
    C --> J[Cambio de Fondo]
    D --> K[Inpainting de Video]
    D --> L[Outpainting de Video]
    D --> M[Eliminacion de Objetos]

Categoria de Tarea	Tipo de Entrada	Salida	Caso de Uso
Texto-a-Video	Prompt de texto	Video generado	Crear B-roll desde descripcion
Imagen-a-Video	Imagen + texto	Video animado	Dar vida a una foto
Referencia-a-Video	Video de referencia + texto	Video estilizado	Aplicar movimiento de un clip
Transferencia de Estilo	Video fuente + texto de estilo	Video estilizado	Convertir a estilo anime
Inpainting de Video	Video + mascara	Video reparado	Eliminar objetos no deseados
Outpainting de Video	Video + mascara de expansion	Video extendido	Expandir bordes del video

Como se Compara la Arquitectura de VACE con Otros Metodos?

Aspecto	VACE (Unificado)	Modelos Especificos	Enfoques Multi-Adaptador
Arquitectura	Un solo modelo base	Modelo separado por tarea	Base + adaptadores separados
Entrenamiento	Conjunto	Independiente	Secuencial de adaptadores
Eficiencia de parametros	Un conjunto de pesos	N conjuntos	Base + N adaptadores
Transferencia entre tareas	Comparticion natural	Sin transferencia	Limitada por aislamiento

Variantes del Modelo y Hardware Requerido

Variante	Parametros	GPU Recomendada	Velocidad	Calidad
VACE Completo	~7B	A100 / H100	Tiempo real (A100)	Mejor
VACE Ligero	~3B	RTX 4090 / A10G	Rapido (RTX 4090)	Alta

Caracteristica	Modelo Completo	Modelo Ligero
Resolucion	1024x576	720x480
Fotogramas	16-32	8-16
Memoria GPU	~24 GB	~12 GB
Tiempo de inferencia	~15s (A100, 16 fotogramas)	~20s (RTX 4090, 16 fotogramas)

FAQ

Que es VACE? Modelo unificado de generacion y edicion de video del Tongyi Lab de Alibaba, aceptado en ICCV 2025.

Que tareas soporta? Creacion de video, edicion de video y edicion con mascara.

Variantes disponibles? Completo y ligero. El completo ofrece maxima calidad; el ligero esta optimizado para GPU de consumo.

Arquitectura? Transformador de difusion unificado con diseno agnostico a la tarea.

Como instalarlo? Clonar el repositorio. A100 recomendado para el modelo completo; RTX 4090 para el ligero.

Lecturas Adicionales

Repositorio GitHub de VACE – Codigo fuente, modelos y documentacion
Articulo Academico de VACE (ICCV 2025) – Investigacion sobre el framework unificado de video
Investigacion del Tongyi Lab de Alibaba – Laboratorio de investigacion de IA de Alibaba
Conferencia ICCV 2025 – Conferencia donde se acepto VACE
Modelo VACE en Hugging Face – Pesos del modelo preentrenado y demos

VACE: El Modelo Todo-en-Uno de Creacion y Edicion de Video de Alibaba (ICCV 2025)

Que Tareas Puede Realizar VACE?

Como se Compara la Arquitectura de VACE con Otros Metodos?

Variantes del Modelo y Hardware Requerido

FAQ

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES