StoryDiffusion es un proyecto de investigación de la Universidad de Nankai y ByteDance que aborda uno de los problemas más difíciles en IA generativa: mantener la consistencia visual en secuencias largas de imágenes y videos. Introduce un novedoso mecanismo de autoatención consistente (CSA) que permite a los modelos de difusión generar tiras cómicas, animaciones y videos coherentes, todo sin ajuste fino.
El desafío central que StoryDiffusion resuelve es simple de enunciar pero extremadamente difícil de resolver: cómo generar una secuencia de imágenes donde el mismo personaje se vea consistentemente igual en cada fotograma? Los modelos de difusión anteriores podían producir imágenes individuales impresionantes, pero al generar un cómic multipanel o un videoclip, los personajes cambiaban sutilmente entre fotogramas.
El mecanismo CSA de StoryDiffusion resuelve esto expandiendo el cómputo de autoatención a través de toda la secuencia de imágenes generadas simultáneamente. El resultado es un enfoque sin entrenamiento que funciona con modelos de difusión preentrenados existentes y escala a secuencias de longitud arbitraria mediante una técnica de ventana deslizante.
Repositorio: github.com/HVision-NKU/StoryDiffusion
Cómo Funciona la Autoatención Consistente?
flowchart LR
A[Prompts de Texto\npor Fotograma] --> B[Modelo de Difusión\nPreentrenado]
B --> C{Atención Propia\nEstándar}
C --> D[Fotograma 1\nSin contexto\nde otros fotogramas]
C --> E[Fotograma 2\nSin contexto\nde otros fotogramas]
C --> F[Fotograma n\nSin contexto\nde otros fotogramas]
A --> G[Modelo de Difusión\nPreentrenado]
G --> H{Atención Propia\nConsistente}
H --> I[Fotograma 1\nContexto compartido\nentre todos]
H --> J[Fotograma 2\nContexto compartido\nentre todos]
H --> K[Fotograma n\nContexto compartido\nentre todos]
subgraph Sin CSA
D --> L[Personajes\ninconsistentes]
E --> M[Deriva de estilo]
F --> N[Pérdida de identidad]
end
subgraph Con CSA
I --> O[Personajes\nconsistentes]
J --> P[Estilo estable]
K --> Q[Identidad preservada]
endComparación con Otros Enfoques
| Método | Entrenamiento Requerido | Consistencia | Longitud de Secuencia | Velocidad |
|---|---|---|---|---|
| StoryDiffusion (CSA) | No | Alta | Arbitraria | Rápida |
| Modelos de Personaje Ajustados | Sí, por personaje | Muy Alta | Limitada | Moderada |
| IP-Adapter | Ajuste ligero | Media | Cualquiera | Rápida |
| Fotograma por fotograma SD | No | Baja | Cualquiera | Rápida |
| Modelos de Video Difusión | Sí, gran escala | Alta | Fija | Lenta |
Tipos de Contenido
Cómics
graph TD
A[Panel 1:\nUn joven mago\nlanzando un hechizo] --> B[Panel 2:\nEl mago\nconjurando un escudo]
B --> C[Panel 3:\nEl mago\nenfrentando un dragón]
C --> D[Panel 4:\nEl mago\ntriunfante]
A -.->|CSA| B
B -.->|CSA| C
C -.->|CSA| D
style A fill:#e1f5fe
style B fill:#e1f5fe
style C fill:#e1f5fe
style D fill:#e1f5feVideo
StoryDiffusion extiende el mismo mecanismo CSA a través de fotogramas temporales.
Instalación
git clone https://github.com/HVision-NKU/StoryDiffusion.git
cd StoryDiffusion
pip install -r requirements.txt
python comic_generation.py \
--prompts "un joven mago lanza un hechizo" \
"el mago conjura un escudo mágico" \
"el mago enfrenta un dragón temible" \
"el mago se yergue triunfante" \
--output ./comic_output \
--style fantasy
python video_generation.py \
--prompt "un samurái caminando por un bosque de bambú" \
--frames 48 \
--output ./video_output
FAQ
Qué es StoryDiffusion? Proyecto de Nankai y ByteDance que introduce CSA para mantener consistencia en secuencias largas de imágenes y video sin ajuste fino.
Cómo funciona CSA? Expande el campo receptivo de atención a través de múltiples fotogramas calculando autoatención simultáneamente en toda la secuencia.
Puede generar cómics completos? Sí, diseñado específicamente para generar tiras cómicas multipanel con personajes consistentes.
Soporta generación de video? Sí, aplica CSA a través de fotogramas temporales para coherencia de personaje y escena.
Cómo instalarlo? Clone el repositorio, instale dependencias y ejecute los scripts. Se recomienda GPU con 8 GB+ VRAM.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!