2023-11-22 20:35:12
Actualizado a Stable Video Diffusion (SVD) 1.1, el modelo está diseñado para producir vídeos generados por IA con mejor movimiento y consistencia. Al igual que su predecesor, está a disposición del público y puede descargarse a través de Hugging Face. Para su uso comercial es necesario ser miembro de Stability AI.
La empresa lanzó un servicio de suscripción para el uso comercial de sus modelos en diciembre de 2023; para el uso no comercial, todos los modelos siguen estando disponibles como código abierto.
Según la ficha del modelo, el SVD 1.1 es una versión refinada del SVD-XT lanzado anteriormente y genera vídeos de cuatro segundos con 25 fotogramas y una resolución de 1024 x 576 píxeles.
Noticia Original 2023-11-22
Stability AI lanza Stable Video Diffusion, un modelo generativo de vídeo que supera a sus competidores comerciales RunwayML y Pika Labs en los estudios de preferencia de los usuarios, según el propio benchmark de la empresa.
Stable Video Diffusion se presenta en forma de dos modelos de imagen a vídeo IA, cada uno capaz de generar 14 y 25 imágenes con frecuencias de fotogramas personalizables que oscilan entre 3 y 30 fotogramas por segundo.
El modelo Video Diffusion se basa en el exitoso modelo de imagen Stable Diffusion, el cual fue meticulosamente entrenado por Stability AI utilizando un conjunto de datos de vídeo de alta calidad.
Este proceso de entrenamiento constó de tres fases: primero, preentrenamiento de texto a imagen; luego, preentrenamiento de vídeo utilizando un amplio conjunto de datos de baja resolución; y finalmente, ajuste de vídeo mediante un conjunto de datos más reducido pero de alta resolución.
Stable Video Diffusion supera a los modelos comerciales
Según Stability AI, en el momento de su lanzamiento, Stable Video Diffusion superó a los principales modelos comerciales, como RunwayML y Pika Labs, en los estudios de preferencias de los usuarios. Stability AI mostró a evaluadores humanos vídeos generados en una interfaz web y, a continuación, les pidió que calificaran la calidad del vídeo en términos de calidad visual y seguimiento.
Sin embargo, RunwayML y Pika Labs fueron superados recientemente por el nuevo modelo de vídeo de Meta, Emu Video, por un margen aún mayor. Así pues, Emu Video sigue siendo probablemente el mejor modelo de vídeo en estos momentos, pero sólo está disponible como trabajo de investigación y como demo web estática.
En su artículo los investigadores de Stability AI también proponen un método para conservar grandes cantidades de datos de vídeo y transformar colecciones de vídeos grandes y desordenadas en conjuntos de datos adecuados para modelos generativos de vídeo. Este enfoque está diseñado para simplificar el entrenamiento de un modelo fundacional robusto para la generación de vídeo.
Actualmente, Stable Video Diffusion sólo está disponible en versión de investigación.
Stable Video Diffusion no solo destaca por su capacidad de adaptarse sin esfuerzo a una variedad de tareas posteriores, sino que también se posiciona como una herramienta versátil para la síntesis multivista a partir de una única imagen, permitiendo un ajuste fino a conjuntos de datos. La visión estratégica de Stability AI se proyecta hacia el futuro, con la ambición de desarrollar un sólido ecosistema de modelos.
Stability AI lanzará Stable Video Diffusion primero como una versión de investigación en Github para recopilar información y comentarios sobre seguridad y calidad, y perfeccionar el modelo para la versión final. El sitio pesos están disponibles en HuggingFace.
Según la empresa, esta versión del modelo no está pensada para un uso comercial o en el mundo real. Al igual que con Stable Diffusion, el modelo final será de libre acceso.
Además del lanzamiento de la versión de investigación, Stability AI ha abierto un lista de espera para una nueva experiencia web con interfaz de texto a vídeo. Esta herramienta pretende facilitar la aplicación práctica de la Difusión Estable de Vídeo en diversos campos como la publicidad, la educación y el entretenimiento.
Stability AI ha publicado recientemente modelos de código abierto para la generación 3D, la generación de audio y la generación de texto con un LLM.