El Futuro de la Generación de Videos con IA: Podrán crear una película Completa

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2024-09-24 – Exploración del estado actual de la generación de videos mediante inteligencia artificial, analizando sus limitaciones, complejidades y posibles evoluciones.

La idea de utilizar sistemas avanzados de inteligencia artificial para la creación de videos ha capturado la imaginación de muchos, pero la realidad actual de esta tecnología deja mucho que desear. A día de hoy, los sistemas existentes no son consistentes, lo que plantea desafíos significativos para su uso en la producción de secuencias de imágenes a video que sean coherentes y plausibles.

La Realidad de la Generación de Videos por IA

En este momento, los métodos más sofisticados no logran producir tomas sucesivas que se mantengan en un nivel de coherencia requerido por narrativas visuales. La complejidad que se añade al proceso va en contra del deseo del auteur de crear obras de arte visual que fluyan naturalmente.

Una estrategia para abordar este problema es el uso de modelos de Adaptación de Bajo Rango (LoRA), que son entrenados específicamente sobre personajes, objetos o entornos. Estos modelos pueden ayudar a mantener una mejor consistencia en las tomas. Sin embargo, el desafío persiste: cuando un personaje necesita una ropa diferente, es necesario entrenar un nuevo LoRA que integre esa apariencia específica. Aunque conceptos secundarios como «vestido rojo» pueden ser introducidos, su implementación puede resultar complicada y laboriosa.

Ejemplo: La escena inicial de una película, en la que un personaje se levanta de la cama y se prepara para comenzar el día, usualmente puede capturarse en una mañana mediante técnicas de filmación convencional. En contraste, utilizando IA generativa, esta misma escena podría requerir semanas de trabajo, múltiples LoRAs entrenados y un alto grado de posprocesamiento.

Alternativas en la Generación Visual: Video a Video

Otra opción disponible es el método de video a video, en el que secuencias de video o elementos CGI son transformados mediante prompts textuales para generar interpretaciones alternativas. Por ejemplo, Runway ofrece un sistema que simplifica estas transformaciones, permitiendo un enfoque más creativo al trabajo visual.

Sin embargo, este método no está exento de dificultades. La creación del material base implica que el proceso de filmación se ejecuta dos veces, incluso si se utilizan sistemas sintéticos como MetaHuman de Unreal. La creación de modelos CGI y su posterior transformación en video no garantizan una consistencia adecuada en todas las tomas, ya que los modelos de difusión de video se basan en la generación de nuevos cuadros a partir de cuadros anteriores.

Limitaciones de los Modelos de Difusión

Los modelos de difusión tienen una memoria limitada y no pueden contextualizar «la gran imagen». Este enfoque produce un nuevo cuadro, pero a menudo carece de la capacidad para «pensar diez movimientos adelante». La falta de capacidad para mantener una apariencia constante a través de las tomas se convierte en un gran obstáculo, incluso si se incorporan múltiplos LoRAs para el personaje, el entorno y el estilo de iluminación.

Dificultades en la Edición de Tomas Video

Cuando se utiliza CGI tradicional, cualquier cambio que se desee implementar puede realizarse fácilmente ajustando el modelo y generando la toma nuevamente. En el contexto de un rodaje en la vida real, los ajustes pueden hacerse reiniciando y regrabando las tomas necesarias. Pero en el ámbito de la video-generación mediante IA, la edición se complica enormemente.

La razón es simple: cualquier cambio en un solo aspecto de un «prompt» textualmente puede alterar múltiples aspectos del rendimiento visual, lo que convierte a la edición en un proceso laborioso que recuerda a un juego de “whack-a-mole”.

¿Las Leyes de la Física No se Aplican?

Los métodos tradicionales de CGI son capaces de simular diversas dinámicas físicas, desde fluidos y gases hasta explosiones y movimientos humanos complejos. Sin embargo, los modelos basados en difusión se ven limitados por sus breves memorias y la escasa variedad de priors de movimiento presentes en los conjuntos de datos de entrenamiento. Un estudio de OpenAI destacó estas limitaciones:

Sora puede encontrar dificultades para simular la física de escenas complejas y no comprender correlaciones específicas del tipo causa-efecto.

Aunque algunos fenómenos físicos, como explosiones, están mejor representados en los conjuntos de datos de entrenamiento, los videos generados por IA pueden carecer de precisión física, ya que los elementos visuales podrían transformarse a medida que se despliegan.

Soluciones en la Postproducción

El ámbito de la generación de video mediante IA enfrentará otros retos, como la captura de movimientos rápidos y la consistencia temporal del video de salida. Crear actuaciones faciales precisas es a menudo cuestión de suerte, lo que también se aplica al lip-sync de diálogos.

El uso de sistemas auxiliares como LivePortrait y AnimateDiff está ganando popularidad en la comunidad de VFX, permitiendo la inclusión de expresiones faciales amplias y lip-sync en el contenido generado.

Ejemplo: Se puede observar cómo se impone una transferencia de expresión en un video objetivo utilizando LivePortrait. Para ver el video completo, accede a: https://www.linkedin.com/posts/genz-tunisia_digitalcreation-liveportrait-aianimation-activity-7240776811737972736-uxiB/.

Además, soluciones complejas que integran herramientas como ComfyUI y Nuke están permitiendo a los profesionales VFX tener un mayor control sobre la expresión y disposición facial. Francisco Contreras, un profesional de VFX, ha avanzado en este tema, describiendo su proceso de animación facial en ComfyUI como intensivo pero efectivo.

Vídeo de Francisco Contreras en el que se analizan aspectos faciales a través de técnicas avanzadas: https://www.linkedin.com/feed/update/urn:li:activity:7243056650012495872/

Reflexiones Finales: ¿Un Futuro con IA en el Cine?

A pesar de los avances mencionados, la posibilidad de que un solo usuario genere películas coherentes y fotorealistas, con diálogos verosímiles y continuidad narrativa, sigue siendo un reto considerable. Las limitaciones descritas en relación con los modelos de video generativos basados en difusión no se resolverán de inmediato, y dichas restricciones parecen estar intrínsecamente ligadas a la arquitectura de estos modelos.

Con el tiempo, el campo de la investigación de síntesis de IA ha visto el surgimiento de ideas brillantes, pero también han salido a la luz sus límites fundamentales. Tecnologías como las Redes Generativas Antagónicas (GAN) y Campos de Radiancia Neurales (NeRF) han demostrado ser complicadas de implementar en sistemas comerciales eficientes.

Los estudios cinematográficos pueden desear que el entrenamiento de catálogos de películas legítimamente licenciados elimine a los artistas de VFX, pero la IA, por el contrario, está añadiendo roles a la fuerza laboral actual.

Es cuestión de meses saber si los sistemas de video basados en difusión pueden evolucionar para convertirse en generadores de películas narrativamente coherentes o si será necesario adoptar un enfoque completamente diferente. Tal vez alternativas como el Gaussian Splatting surjan como soluciones viables para los desafíos actuales, sugiriendo que puede haber un futuro promisorio para la IA en la creación audiovisual.

_A pesar de contar con características como las de Kaiber, los resultados aún no alcanzan el nivel de calidad de producción._


Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo