La edición de vídeo está a punto de transformarse radicalmente gracias a Fairy, el flamante modelo de síntesis de vídeo a vídeo desarrollado por el equipo GenAI de Meta.
Este sistema no solo acelera el proceso de edición, sino que además garantiza una coherencia temporal sin precedentes. La edición se simplifica a través de instrucciones textuales fáciles de seguir, como «al estilo de Van Gogh», permitiendo por ejemplo, metamorfosear un astronauta en un Yeti con una simple frase (puedes ver el video más abajo).
Alcanzar una coherencia visual en la edición de vídeos IA es complicado, debido a que se pueden generar muchas variaciones a partir de una sola indicación. Para superar este reto, Fairy aplica un mecanismo de atención entre cuadros, asegurando así una coherencia superior y resultados de alto nivel de fidelidad.
Este modelo destaca en rendimiento, creando vídeos de 512×384 píxeles con 120 frames (4 segundos a 30 fps) en tan solo 14 segundos, lo que lo sitúa muy por encima de la velocidad de los modelos precedentes. Inspirado en la tecnología de modelos de difusión para imágenes de Meta, como Emu, Fairy ha sido optimizado para enfrentar las demandas de la edición de vídeo.
Fairy procesa cada cuadro del vídeo fuente totalmente, sin necesidad de reducir la resolución ni realizar interpolación, y ajusta el aspecto horizontal del vídeo final a 512 píxeles, manteniendo la proporción original de la imagen. En pruebas usando seis GPU A100, Fairy logró renderizar un vídeo de 27 segundos en poco más de 71 segundos, manteniendo una coherencia visual impecable.
La eficacia del modelo se comprobó a través de un estudio exhaustivo con 1,000 muestras generadas, donde tanto evaluadores humanos como pruebas cuantitativas confirmaron que Fairy aventaja a modelos anteriores como Rerender, TokenFlow y Gen-1.
Limitaciones de Fairy con Efectos Dinámicos
A pesar de su avanzada tecnología, Fairy aún enfrenta obstáculos al trabajar con efectos ambientales tales como lluvia, fuego o relámpagos, los cuales pueden resultar desacordes con el resto de la escena o provocar fallas visuales. Estos problemas surgen a causa del enfoque intensivo en la coherencia temporal, que hace que efectos que deberían ser fluidos y dinámicos parezcan estáticos.
No obstante, el grupo de especialistas detrás de Fairy considera que su desarrollo es un gran paso adelante en el terreno de la edición de vídeo asistida por IA, marcando una transformación en la forma en que percibimos la coherencia temporal y la síntesis de alta calidad en los vídeos editados.