AI

StoryDiffusion: Autoatención Consistente para Generación de Imágenes y Video de Largo Alcance

StoryDiffusion es un proyecto de investigación de la Universidad de Nankai y ByteDance que permite la generación consistente de cómics y videos de largo alcance utilizando una novedosa autoatención.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
StoryDiffusion: Autoatención Consistente para Generación de Imágenes y Video de Largo Alcance

StoryDiffusion es un proyecto de investigación de la Universidad de Nankai y ByteDance que aborda uno de los problemas más difíciles en IA generativa: mantener la consistencia visual en secuencias largas de imágenes y videos. Introduce un novedoso mecanismo de autoatención consistente (CSA) que permite a los modelos de difusión generar tiras cómicas, animaciones y videos coherentes, todo sin ajuste fino.

El desafío central que StoryDiffusion resuelve es simple de enunciar pero extremadamente difícil de resolver: cómo generar una secuencia de imágenes donde el mismo personaje se vea consistentemente igual en cada fotograma? Los modelos de difusión anteriores podían producir imágenes individuales impresionantes, pero al generar un cómic multipanel o un videoclip, los personajes cambiaban sutilmente entre fotogramas.

El mecanismo CSA de StoryDiffusion resuelve esto expandiendo el cómputo de autoatención a través de toda la secuencia de imágenes generadas simultáneamente. El resultado es un enfoque sin entrenamiento que funciona con modelos de difusión preentrenados existentes y escala a secuencias de longitud arbitraria mediante una técnica de ventana deslizante.

Repositorio: github.com/HVision-NKU/StoryDiffusion


Cómo Funciona la Autoatención Consistente?

Comparación con Otros Enfoques

MétodoEntrenamiento RequeridoConsistenciaLongitud de SecuenciaVelocidad
StoryDiffusion (CSA)NoAltaArbitrariaRápida
Modelos de Personaje AjustadosSí, por personajeMuy AltaLimitadaModerada
IP-AdapterAjuste ligeroMediaCualquieraRápida
Fotograma por fotograma SDNoBajaCualquieraRápida
Modelos de Video DifusiónSí, gran escalaAltaFijaLenta

Tipos de Contenido

Cómics

Video

StoryDiffusion extiende el mismo mecanismo CSA a través de fotogramas temporales.

Instalación

git clone https://github.com/HVision-NKU/StoryDiffusion.git
cd StoryDiffusion
pip install -r requirements.txt
python comic_generation.py \
  --prompts "un joven mago lanza un hechizo" \
             "el mago conjura un escudo mágico" \
             "el mago enfrenta un dragón temible" \
             "el mago se yergue triunfante" \
  --output ./comic_output \
  --style fantasy
python video_generation.py \
  --prompt "un samurái caminando por un bosque de bambú" \
  --frames 48 \
  --output ./video_output

FAQ

Qué es StoryDiffusion? Proyecto de Nankai y ByteDance que introduce CSA para mantener consistencia en secuencias largas de imágenes y video sin ajuste fino.

Cómo funciona CSA? Expande el campo receptivo de atención a través de múltiples fotogramas calculando autoatención simultáneamente en toda la secuencia.

Puede generar cómics completos? Sí, diseñado específicamente para generar tiras cómicas multipanel con personajes consistentes.

Soporta generación de video? Sí, aplica CSA a través de fotogramas temporales para coherencia de personaje y escena.

Cómo instalarlo? Clone el repositorio, instale dependencias y ejecute los scripts. Se recomienda GPU con 8 GB+ VRAM.

Lecturas Adicionales

TAG
CATEGORIES