2023-09-13 12:19:22
MVDream utiliza Stable Diffusion y NeRFs para generar algunos de los mejores renderizados 3D a partir de texto.
Los investigadores de ByteDance presentan MVDream (Multi-view Diffusion for 3D Generation), un modelo de difusión capaz de generar renderizados 3D de alta calidad a partir de mensajes de texto. Ya existen modelos similares, pero MVDream consigue una calidad comparativamente alta y evita dos problemas fundamentales de los enfoques alternativos.
A menudo se enfrentan al problema de Janus y a la deriva del contenido. Por ejemplo, un bebé Yoda generado tiene múltiples caras, o un plato de gofres generado cambia el número y la disposición de los gofres dependiendo del ángulo de visión.
Para resolver este problema, ByteDance entrena un modelo de difusión como Stable Diffusion no sólo con los pares habituales de imagen-preferencia, sino también con múltiples vistas de objetos 3D. Para ello, los investigadores renderizan un gran conjunto de datos de modelos 3D desde diferentes perspectivas y ángulos de cámara.
Según el equipo, al ver vistas coherentes desde distintos ángulos, el modelo aprende a producir formas 3D coherentes en lugar de imágenes 2D inconexas.
MVDream mejorará aún más con SDXL
En concreto, el modelo genera imágenes de un objeto desde distintas perspectivas a partir de una indicación de texto, que el equipo utiliza después para entrenar un NeRF como representación tridimensional del objeto.
En comparación directa con enfoques alternativos, MVDream muestra un salto significativo en calidad y evita artefactos comunes como el problema Janus o la deriva de contenido.
En un experimento, el equipo también muestra que MVDream puede aprender nuevos conceptos a través de Dreambooth y luego generar vistas en 3D de un perro concreto, por ejemplo.
El equipo cita como limitaciones la todavía baja resolución de 256 x 256 píxeles y la limitada generalizabilidad. Sin embargo, ByteDance espera que ambos problemas puedan reducirse o resolverse en el futuro utilizando modelos de difusión más grandes, como SDXL. Sin embargo, para mejorar significativamente la calidad y el estilo de los renderizados 3D, el equipo afirma que probablemente será necesario un entrenamiento exhaustivo con un nuevo conjunto de datos.
Más información y ejemplos en la página MVDreams GitHub.