2024-09-25 – Explora las innovaciones en la conversión de videos 2D a 3D utilizando inteligencia artificial, junto con los elementos clave de los sistemas de avatares y su entrenamiento, para comprender cómo estas tecnologías están redefiniendo el contenido audiovisual moderno.
La conversión de objetos en videos de origen de 2D a 3D ha evolucionado notablemente, siendo empleada la estimación de profundidad monocular para iniciar este proceso. Uno de los pioneros en esta área es el sistema Depth Anything. En este marco, el elemento humano presente en cada fotograma se extrae utilizando técnicas adapta das del proyecto Tune-A-Video, lo que permite un tratamiento más específico de las imágenes.
Innovaciones en la Conversión de Videos 2D a 3D: Avatares y Tecnología de IA
Las características obtenidas son transformadas en facetas volumétricas basadas en video, utilizando la arquitectura Segment Anything 2 de Facebook Research. Este sistema actúa de manera que se generan capas de escena, las cuales son depuradas al eliminar objetos detectados en otras capas. Este método otorga automáticamente una máscara al estilo de rotoscopia.
Para lograr el movimiento, se utiliza un conjunto de códigos latentes que representan el elemento humano, los cuales se anclan a un modelo CGI humano estándar denominado SMPL. Este modelo proporciona el contexto necesario para el contenido humano renderizado. A través de un rastreador diferenciable, derivado de una iniciativa de NVIDIA en 2020, se genera un mapa de características 2D del contenido humano. De esta manera, se establece una correspondencia sólida entre los datos 3D obtenidos de SMPL y los datos 2D, creando una representación robusta del “persona neural”.
Referencias Establecidas en Arquitecturas SMPL
En este punto, se requiere establecer una referencia ampliamente utilizada en las arquitecturas que emplean SMPL: la pose canónica. Este concepto es análogo al “hombre de Vitruvio” de Da Vinci, ya que representa un modelo de pose neutra que puede aceptar contenido y ser deformado, llevándose consigo el contenido texturizado de manera efectiva.
Deformaciones y Movimiento Humano
Las deformaciones generadas, o «desviaciones de la norma», son indicativas del movimiento humano. El modelo SMPL mantiene los códigos latentes que configuran la identidad del humano extraído, asegurando que el avatar resultante sea representado de manera precisa tanto en postura como en textura. Esto plantea un desafío en relación al tema de entrelazamiento, que representa las limitaciones que los datos entrenados pueden tener cuando se extienden más allá de sus confines originales.
Estrategias de Desentrelazamiento
Los autores del estudio sugieren:
- “Para desentrelazar completamente la apariencia de los fotogramas de video posados, una solución ideal es aprender la representación dinámica humana desde el video monocular y transformarla del espacio posado al espacio canónico.”
Se emplea un método simplificado que transforma directamente la imagen humana posada al resultado canónico en una pose A estándar. La imagen de apariencia canónica sintetizada se alimenta a codificadores de identidad para obtener la identidad.
Este diseño simple permite el desentrelazado completo de los atributos de identidad y movimiento. Siguiendo lo indicado en Animate Anyone, los codificadores de ID incluyen un codificador de imágenes CLIP y una arquitectura de red de referencia que se encargan de las características globales y locales.
Procesamiento de Escenas y Elementos de Oclusión
Para los aspectos de escena y oclusión, se utiliza un Autoencoder Variacional (VAE), fijado y compartido, derivado de una publicación de 2013. Este modelo se emplea para incrustar los elementos de escena y oclusión en un espacio latente. Las incongruencias se abordan mediante un método de inpainting del proyecto ProPainter, lanzado en 2023.
Una vez que se ensamblan y retocan de esta manera, tanto el fondo como los objetos que ocluyen el video proporcionan una base para el avatar humano en movimiento.
Integración de Componentes en la Arquitectura
Los atributos descompuestos son dirigidos hacia un backbone U-Net, basado en la arquitectura Stable Diffusion V1.5. El código de la escena completa se concatena con el ruido latente nativo del sistema anfitrión, mientras que el componente humano se integra a través de capas de auto-atención y atención cruzada.
Posteriormente, el resultado desruido se presenta a través del decodificador VAE.
Datos y Pruebas
Para el entrenamiento, se ha creado un conjunto de datos de video humano denominado HUD-7K, que consta de 5,000 videos de personajes reales y 2,000 animaciones sintéticas generadas por el sistema En3D. Las grabaciones reales no precisaron anotaciones, gracias a la naturaleza no semántica de los procedimientos de extracción de figuras en la arquitectura MIMO. Por otro lado, los datos sintéticos fueron completamente anotados.
El modelo se entrenó utilizando ocho GPUs NVIDIA A100, aunque el documento no indica si eran de 40GB o 80GB de VRAM, a lo largo de 50 iteraciones, empleando 24 fotogramas de video y un tamaño de lote de cuatro, hasta alcanzar la convergencia.
Evaluación del Módulo de Movimiento
El módulo de movimiento del sistema fue entrenado con los pesos de AnimateDiff. Durante el proceso de entrenamiento, los pesos del codificador/decodificador VAE y del codificador de imágenes CLIP fueron congelados, en contraposición a un ajuste fino completo, que tendría un efecto mucho más amplio sobre un modelo base.
Pese a que MIMO no fue probado frente a sistemas análogos, los investigadores llevaron a cabo pruebas sobre secuencias de movimiento difíciles fuera de distribución provenientes de AMASS y Mixamo. Estas secuencias incluyeron movimientos como escalar, jugar y bailar.
Además, el sistema fue evaluado con videos de humanos en entornos diversos. En ambos casos, el documento reporta «alta robustez» para estos movimientos 3D invisibles, desde distintos puntos de vista.
Aunque el documento presenta múltiples resultados de imágenes estáticas que demuestran la efectividad del sistema, se argumenta que la verdadera capacidad de MIMO se evalúa mejor con los resultados en video extensos disponibles en la página del proyecto, así como en el video de YouTube que se encuentra incrustado más abajo.
Conclusiones de la Investigación
Los autores concluyen que:
«Los resultados experimentales demuestran que nuestro método no solo permite un control flexible del carácter, el movimiento y la escena, sino también escalabilidad avanzada a personajes arbitrarios, así como generalidad a nuevos movimientos 3D y aplicabilidad a escenas interactivas.”
«También creemos que nuestra solución, que considera la naturaleza 3D inherente y codifica automáticamente el video 2D en componentes espaciales jerárquicos, podría inspirar futuras investigaciones en síntesis de video consciente de 3D.”
- “Además, nuestro marco no solo es adecuado para generar videos de personajes, sino que también puede adaptarse a otras tareas de síntesis de video controlables.»
Reflexiones Finales
Es emocionante observar un sistema de avatares basado en Stable Diffusion que muestra una notable estabilidad temporal, especialmente considerando que los Avatares Gaussianos parecen estar ganando terreno en este sector de la investigación.
Los avatares estilizados presentados en los resultados son altamente efectivos. Aunque el nivel de fotorrealismo que MIMO puede alcanzar no se equipara en este momento a lo que es capaz de producir el Gaussian Splatting, las ventajas diversas de crear humanos consistentemente temporales dentro de una Red de Difusión Latente (LDM) semánticamente basada son innegables.