2023-08-27
StableVideo aporta algunas capacidades de edición de vídeo a Stable Diffusion, como permitir transiciones de estilo o cambiar fondos.
Generar vídeos realistas y temporalmente coherentes a partir de mensajes de texto sigue siendo un reto para los sistemas de IA, e incluso los sistemas más avanzados, como los de RunwayML, siguen mostrando inconsistencias significativas.
Aunque todavía queda mucho trabajo por hacer en esta frontera, algunas investigaciones, como StableVideo, están explorando cómo la IA generativa puede basarse en vídeos existentes. En lugar de generar vídeos desde cero, StableVideo utiliza modelos de difusión como Stable Diffusion para editar vídeos fotograma a fotograma.
Según los investigadores, esto garantiza la coherencia entre fotogramas mediante una técnica que transfiere información entre fotogramas clave. Esto permite modificar semánticamente objetos y fondos manteniendo la continuidad, de forma similar a VideoControlNet.
StableVideo introduce la propagación entre fotogramas para mejorar la coherencia
Para ello, introduce la «propagación entre fotogramas» en los modelos de difusión. Esto propaga las apariencias de los objetos entre los fotogramas clave, permitiendo una generación consistente a lo largo de la secuencia de vídeo.
En concreto, StableVideo selecciona primero los fotogramas clave y utiliza un modelo de difusión estándar como Stable Diffusion para procesarlos basándose en indicaciones de texto. El modelo tiene en cuenta la estructura visual para preservar las formas. A continuación, transfiere información de un fotograma clave editado al siguiente utilizando su solapamiento común en el vídeo. Esto guía al modelo para generar fotogramas posteriores de forma coherente.
Finalmente, un paso de agregación combina los fotogramas clave editados para crear capas de vídeo editadas de primer plano y de fondo. La composición de estas capas produce el resultado final coherente.
En los experimentos, el equipo demuestra la capacidad de StableVideo para realizar diversas ediciones basadas en texto, como cambiar los atributos de los objetos o aplicar estilos artísticos, manteniendo al mismo tiempo una fuerte continuidad visual en todo el vídeo.
Sin embargo, existen limitaciones: el rendimiento sigue dependiendo de las capacidades del modelo de difusión subyacente, según los investigadores. La coherencia también falla en el caso de objetos deformables complejos, lo que requiere más investigación.
Más información y el código en StableVideo GitHub.