
2024-10-03 – Descubre el innovador sistema MiraGe, que utiliza Gaussian Splatting para la edición de imágenes 2D en un entorno 3D, transformando el proceso creativo sin la intervención de modelos de difusión.
En el mundo actual de la creación digital, las innovaciones no dejan de surgir. Un desarrollo reciente ha llamado particularmente la atención: el sistema MiraGe, que utiliza el Gaussian Splatting como una herramienta revolucionaria para la manipulación de imágenes 2D en un espacio 3D. Este enfoque se distingue por no depender de la inteligencia artificial generativa, lo que lo diferencia de soluciones como Adobe Firefly, un sistema que utiliza modelos de difusión latente entrenados en su extenso archivo de imágenes.
¿Qué es el MiraGe?
El sistema MiraGe es capaz de convertir selecciones de imágenes en un espacio tridimensional. Su funcionamiento se basa en la creación de una imagen espejo de la selección, lo que permite inferir coordenadas 3D que se integran en un Splat. Este proceso transforma la imagen original en una malla que puede animarse o modificarse mediante un motor físico integrado.
Este método se asemeja al utilizado por muchos profesionales en el modelado 3D, como los que emplean zBrush, un software que permite «aplanar» modelos tridimensionales manteniendo su malla subyacente. Sin embargo, a diferencia de zBrush, que requiere una manipulación más directa y «congelada», MiraGe ofrece un enfoque más dinámico similar a las manipulaciones que se realizan en Photoshop, como la deformación y otros métodos visuales.
Avanzando en la Tecnología de la Imágenes
El artículo que presenta este avance menciona lo siguiente:
‘[Nosotros] introducimos un modelo que codifica imágenes 2D simulando la interpretación humana. Específicamente, nuestro modelo percibe una imagen 2D como lo haría una persona al mirar una fotografía, tratándola como un objeto plano dentro de un espacio tridimensional hasta su transformación total.’
Enfoque Metodológico
El enfoque de MiraGe emplea una parametrización conocida como Gaussian Mesh Splatting (GaMeS). Este método permite que los Gaussian Splats sean interpretados como mallas CGI tradicionales, abriendo un abanico de técnicas de deformación y modificación desarrolladas por la comunidad de gráficos por computadora durante décadas. Este sistema realmente extrae el contenido de una superficie 2D y lo transforma en un entorno 3D.
Los investigadores han dotado al sistema de una curiosa técnica que utiliza dos cámaras opuestas, situadas a lo largo del eje Y, que se alinean simétricamente para modelar tanto la imagen original como su reflejo. Este proceso se conceptualiza como si se tratara de un papel de calco translúcido incrustado en un contexto espacial 3D, lo que permite un manejo más dinámico y fiel a la realidad de las imágenes.
Optimización y Edición de Imágenes
Los ajustes de perspectiva, que tradicionalmente presentan varios retos, se vuelven manejables gracias al acceso directo a una edición en 3D. Por ejemplo, un usuario puede girar una mano en una imagen de forma plausible, algo que resulta complicado si se intenta solo mediante la manipulación de píxeles.
Utilizar herramientas generativas como Firefly en Photoshop podría llevar a la pérdida de la autenticidad de los elementos editados, dado que se reemplazarían por partes generadas sintéticamente. Por tanto, sistemas como MiraGe se erigen como opciones más viables para realizar ediciones realistas y atractivas.
Comparación con Modelos Existentes
El uso de Representaciones Neurales Implícitas (INRs) ha dominado anteriormente esta área, siendo SIREN y WIRE los ejemplos más reconocidos. Sin embargo, a diferencia de estos métodos que trabajan con funciones continuas y no permiten acceso directo a las coordenadas, el Gaussian Splatting ofrece una representación explícita y direccionable, lo que facilita su integración en trabajos de edición de imágenes.
Los autores también han señalado la notable limitación que presentan muchos modelos de difusión, que suelen tener enfoques demasiado imaginativos y poco precisos al considerar modificaciones específicas solicitadas por el usuario.
Resultados y Evaluaciones
Se han llevado a cabo pruebas para evaluar la calidad de imagen utilizando métricas como la Relación Señal-Ruido (SNR) y MS-SIM en varias bases de datos de referencia. Estos experimentos se realizaron en plataformas gráficas robustas, como la NVIDIA GEFORCE RTX 4070 y la RTX 2080, lo que permitió a los investigadores comparar los resultados obtenidos con otras soluciones existentes, confirmando que MiraGe supera las expectativas y ofrece una mejora significativa.
MiraGe representa una exploración reciente y prometedora en el ámbito del Gaussian Splatting 2D, ofreciendo una alternativa innovadora a los modelos de difusión que han dominado el mercado. A medida que los desarrollos continúan, queda claro que la capacidad de manipular partes de una imagen en un espacio tridimensional y reintegrarlas sin perder su esencia puede ser un gran paso adelante en el mundo de la edición digital.
Sin duda, el sistema MiraGe tiene un futuro brillante en la edición de imágenes, manteniendo la autenticidad y flexibilidad que los creativos tanto demandan.