2023-11-24 16:07:19
El martes, Stability AI lanzó Stable Video Diffusion. Ya está disponible la primera implementación para usuarios privados.
Los creadores de la herramienta de Difusión Estable «ComfyUI» han añadido soporte para los modelos de Difusión de Video Estable de Stable AI en una nueva actualización. ComfyUI es una interfaz gráfica de usuario para Stable Diffusion, utilizando una interfaz de gráfico/nodo que permite a los usuarios construir flujos de trabajo complejos. Es una alternativa a otras interfaces como AUTOMATIC1111.
Según los desarrolladores, la actualización puede utilizarse para crear vídeos a una resolución de 1024 x 576 con una duración de 25 fotogramas en la Nvidia GTX 1080 de 7 años con 8 gigabytes de VRAM. Los usuarios de AMD también pueden utilizar la IA de vídeo generativo con ComfyUI en una AMD 6800 XT ejecutando ROCm en Linux. Se tarda unos 3 minutos en crear un vídeo.
Los desarrolladores han publicado dos flujos de trabajo de muestra para Stable Video Diffusion en ComfyUI – uno para el modelo de 14 fotogramas y otro para el modelo de 25 fotogramas – en su blog.
Stability AI planea nuevas mejoras para Stable Video Diffusion
A principios de esta semana, Stability AI presentó el avance de investigación de Stable Video Diffusion, un modelo de vídeo generativo diseñado para superar a sus competidores comerciales RunwayML y Pika Labs en los estudios de preferencias de los usuarios.
El modelo se ha lanzado en dos formatos de fotograma a vídeo que pueden generar 14 o 25 fotogramas a frecuencias de cuadro ajustables entre 3 y 30 fotogramas por segundo y se basa en el modelo de imagen Stable Diffusion.
Inicialmente disponible como versión de investigación en Github, Stability AI planea desarrollar un ecosistema de modelos basados en él. Al igual que Stable Diffusion, el modelo final será de libre acceso y también está prevista una versión web con funcionalidad de texto a vídeo.