Stability AI lanza SVD 1.1, un modelo de difusión para videos de inteligencia artificial más consistentes

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+2

2024-02-10 19:19:14

Stability AI, la empresa conocida por su creciente variedad de modelos de inteligencia artificial de código abierto para la creación de contenido y codificación, anunció hoy una actualización para su modelo de difusión latente de imagen a video, Difusión de Video Estable (SVD).

Denominado SVD 1.1, el modelo actualizado es una versión optimizada de SVD 1.0, optimizada para generar videos cortos de inteligencia artificial con mejor movimiento y más consistencia.

En una publicación anunciando la actualización, Tom Mason, el CTO de Stability AI, confirmó que el nuevo modelo está disponible para uso público y se puede descargar a través de Hugging Face.

La disponibilidad del modelo será parte de las membresías de suscripción de Stability, las cuales ofrecen diferentes niveles para usuarios individuales y empresariales, con opciones que van desde gratuita hasta premium por $20 al mes y superiores. Aquellos interesados en utilizar el nuevo SVD 1.1 para propósitos comerciales necesitarán adquirir una membresía adicional.

¿Qué ofrece el SVD 1.1 de Stability AI?

Recordemos noviembre de 2023, cuando Stability lanzó dos modelos para inteligencia artificial en videos: SVD y SVD-XT. El primero era el modelo básico que tomaba una imagen estática como referencia y generaba un video de cuatro segundos con hasta 14 cuadros. Por otro lado, SVD-XT era una versión mejorada que, siguiendo el mismo principio, producía hasta 25 cuadros en esos cuatro segundos.

Ahora, centrando la atención en el SVD 1.1, Stability ha presentado una actualización significativa. Este modelo, según la empresa, sigue generando videos de cuatro segundos con 25 cuadros, pero ahora a una resolución de 1024×576, manteniendo un marco de referencia del mismo tamaño.

Lo más relevante es la expectativa de que esta nueva versión proporcione salidas de video más coherentes en comparación con el modelo original.

Por ejemplo, en muchas ocasiones, tanto SVD como SVD-XT tenían dificultades para ofrecer un realismo fotográfico completo, generaban videos estáticos o con movimientos de cámara muy lentos, y no lograban generar caras y personas de manera convincente. Se espera que todos estos problemas sean cosa del pasado con el SVD 1.1, que promete mejorar significativamente la fluidez de las salidas.

«Se ha realizado un ajuste fino (para el SVD 1.1) manteniendo el condicionamiento fijo a 6 FPS y el ID de cubo de movimiento en 127 para mejorar la consistencia de las salidas sin necesidad de modificar los hiperparámetros. Estas condiciones siguen siendo ajustables y no se han eliminado. El rendimiento fuera de los ajustes de condicionamiento fijo puede variar en comparación con el SVD 1.0», menciona la empresa en la página de Hugging Face dedicada al nuevo modelo.

El verdadero rendimiento del SVD 1.1 está aún por verse

Aunque Stability afirma mejoras en el rendimiento con el SVD 1.1, aún es necesario comprobar cómo funciona exactamente en la práctica. La página de Hugging Face del modelo advierte que este está destinado principalmente a fines de investigación y señala que algunos de los problemas originales aún podrían persistir.

Es importante destacar que, además de estar disponible en Hugging Face, los modelos de Difusión de Video Estable también pueden ser utilizados a través de la API proporcionada por la plataforma de desarrolladores de Stability AI. Esto brinda a los desarrolladores una manera sencilla de integrar la generación avanzada de video en sus productos.

«… Hemos lanzado la API de Difusión de Video Estable, la cual genera videos de 4 segundos a 24 FPS en formato MP4, incluyendo 25 cuadros generados y los cuadros interpolados restantes. Admitimos control de fuerza de movimiento y múltiples diseños y resoluciones, incluyendo 1024×576, 768×768 y 576×1024,» comentó Mason en su publicación.

El año pasado, Stability AI marcó un hito en la inteligencia artificial generativa con lanzamientos frecuentes de modelos. El año 2024 parece seguir esta tendencia. La empresa, fundada en 2019 y que ha obtenido un financiamiento significativo, incluyendo una ronda de $101 millones anunciada en 2022, se encuentra entre los líderes en este campo. Sin embargo, no está sola en la competencia. Ofertas competitivas como Runway y Pika también están ganando terreno, especialmente con sus plataformas web centradas en el cliente, que no solo generan videos, sino que también ofrecen opciones de personalización y mejora con facilidad.

Recientemente, el competidor Runway introdujo Multi Motion Brush en su plataforma, lo que permite a los usuarios agregar movimiento a partes específicas de sus videos de inteligencia artificial. Por otro lado, Pika, otra empresa en el campo de la generación de videos de inteligencia artificial, permite a los usuarios modificar regiones específicas en sus videos, como cambiar una cara de vaca por la de un pato. Sin embargo, ambas plataformas aún no ofrecen sus modelos a través de APIs, lo que limita la integración por parte de los desarrolladores en sus respectivas aplicaciones.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo