Generan y editan vídeo utilizando sólo texto gracias a la IA de Meta

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-11-19 15:06:31

Meta AI presenta Emu Video y Emu Edit para la edición de imagen y vídeo basada en texto. El modelo se basa en el modelo de imagen Emu.

El nuevo modelo de vídeo de Meta puede generar vídeos de cuatro segundos a partir de texto e imágenes. En términos de calidad, los investigadores afirman que es superior a ofertas comerciales como Runway Gen-2 y Pika Labs. Su afirmación se basa en las valoraciones humanas de los vídeos de prueba generados.

Emu Video convierte texto en imágenes y luego en vídeo

Emu Video se basa en el modelo de imagen Emu que Meta presentó en Connect 2023 este otoño. Emu Video utiliza una arquitectura estandarizada para tareas de generación de vídeo y procesa indicaciones de texto e imagen o indicaciones combinadas.

El proceso es lo que hace inteligente a Emu Video, y consta de dos pasos: En primer lugar, se generan imágenes basadas en un texto y, a continuación, se genera un vídeo basado tanto en el texto como en la imagen generada.

Esto permite que el modelo conserve la variedad visual y el estilo del modelo texto-imagen, lo que, según Meta AI, facilita la creación de vídeos y mejora la calidad del resultado.

Este enfoque «factorizado» permite a Meta entrenar eficazmente modelos de generación de vídeo y generar directamente vídeos de alta resolución. El modelo utiliza dos modelos de difusión para generar vídeos de 512×512 cuatro segundos a 16 fotogramas por segundo. Los investigadores también experimentaron con vídeos de hasta ocho segundos, con buenos resultados.

Para evaluar la calidad de los vídeos generados, el equipo desarrolló el sistema de calificación humana JUICE (JUstify their choICE). Este método exige que los calificadores justifiquen sus decisiones al comparar la calidad de los vídeos utilizando criterios preestablecidos, con lo que se pretende aumentar la fiabilidad del proceso de calificación.

Los factores de calidad son: Nitidez de píxeles, Movimiento suave, Objetos/escenas reconocibles, Consistencia de la imagen y Rango de movimiento. Para la precisión puntual (fidelidad del texto), los motivos son la alineación espacial del texto y la alineación temporal del texto.

Según esta medida, Emu Video supera claramente a todos los modelos anteriores de conversión de texto a vídeo: en las evaluaciones humanas, los vídeos generados con el modelo Meta fueron preferidos en calidad y cantidad a los generados con Pika Labs en más del 95 por ciento de los casos. Sólo Imagen Video, de Google, se acerca un poco más en cuanto a precisión de las indicaciones, pero sigue estando muy por detrás (56,4%), también en términos de calidad (81,8%).

Hay muchos más ejemplos de vídeo y una demostración interactiva en la página web Sitio web de Emu Video.

Emu Edit: Edición de imágenes basada en texto

Emu Edit pretende simplificar varias tareas de manipulación de imágenes y mejorar las capacidades de edición de imágenes.

El modelo proporciona edición de vídeo gratuita sólo a través de indicaciones en lenguaje natural, incluyendo edición local y global, eliminación y adición de fondos, transformaciones de color y geometría, detección y segmentación, etc.

La atención se centra en cambiar sólo los píxeles que son relevantes para la solicitud de edición. Los píxeles del vídeo a los que no se refiere la solicitud no se ven afectados, según Meta.

Para entrenar el modelo, Meta ha desarrollado un conjunto de datos de decenas de millones de ejemplos sintetizados para 16 tareas de procesamiento de imágenes, cada una de las cuales contiene una imagen de entrada, una descripción de la tarea a realizar y la imagen de salida deseada. El modelo también utiliza incrustaciones de tareas aprendidas para guiar el proceso de generación hacia el tipo de procesamiento correcto.

Emu Edit también es capaz de generalizar nuevas tareas, como el repintado de imágenes, la superresolución y las combinaciones de tareas de procesamiento con sólo unos pocos ejemplos etiquetados. Esta capacidad es particularmente útil en escenarios donde los ejemplos de alta calidad son escasos.

Los investigadores también descubrieron que las tareas de visión por ordenador mejoraban significativamente el rendimiento de edición y que el rendimiento de Emu Edit también aumenta con el número de tareas de entrenamiento.

En las evaluaciones, Emu Edit demostró un rendimiento superior al de los métodos actuales, alcanzando nuevos máximos en las puntuaciones cualitativas y cuantitativas de diversas tareas de procesamiento de imágenes.

Según los investigadores, el modelo supera con creces a los existentes a la hora de seguir instrucciones de edición y preservar la calidad visual de la imagen original. Tienen previsto seguir mejorando Emu Edit y explorar sus posibles aplicaciones.

Emu Video y Emu Edit pueden utilizarse de muchas maneras, desde crear pegatinas animadas o GIF hasta editar fotos e imágenes. Sin embargo, Emu Video y Emu Edit siguen siendo en este momento proyectos puramente de investigación. Al igual que con otros modelos de IA, es probable que Meta intente integrar las capacidades de estos modelos generativos en sus propios productos de comunicación, como Instagram y WhatsApp, para ofrecer a los usuarios más formas de interactuar y expresarse.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo