2024-01-23 15:15:26
Puntos Claves:
- PixArt-δ es una nueva herramienta de generación de imágenes a partir de texto, que produce imágenes de alta calidad de manera ultrarrápida.
- Este modelo mejora la velocidad y resolución de su predecesor PixArt-α, funcionando eficientemente incluso en hardware con memoria limitada.
- PixArt-δ ofrece una mayor precisión y control de la generación de imágenes mediante una arquitectura innovadora y módulos de control de referencia adicionales.
A Stable Diffusion pronto le saldrá competencia en lo que a generadores de imágenes de código abierto. En su última iteración, PixArt es más rápido y preciso, y mantiene una resolución relativamente alta.
Con el lanzamiento de PixArt-δ, la competencia en el mundo de los generadores de imágenes basados en inteligencia artificial y código abierto se intensifica. Esta herramienta no solo es más veloz y precisa sino que también conserva una elevada resolución en sus creaciones visuales.
Un consorcio de expertos del Huawei Noah’s Ark Lab, la Universidad Tecnológica de Dalian, la Universidad Tsinghua y Hugging Face revelaron PixArt-δ, una solución avanzada para la conversión de texto en imágenes que aspira a superar a Stable Diffusion.
A diferencia de su versión anterior, PixArt-α, capaz de crear detalladas imágenes con rapidez, PixArt-δ marca un hito en la síntesis de imágenes al mezclar el modelo de consistencia latente (LCM) y ControlNet, mejorando la celeridad sin sacrificar la calidad.
Invención en IA: PixArt-δ eleva el estándar con resultados rápidos y de alta fidelidad
La integración del modelo de consistencia latente (LCM) y ControlNet resulta en una generación de imágenes de calidad con dimensiones de 1024 x 1024 píxeles en tan sólo medio segundo, logrando ser siete veces más rápido que su versión anterior. Este modelo demuestra que incluso con pasos reducidos, es posible obtener resultados notables.
En una comparativa con SDXL Turbo, que fue develado por Stability AI y produce imágenes más pequeñas en un tiempo ligeramente menor, las creaciones de PixArt-δ destacan por su mayor resolución y coherencia visual. Además, las imágenes resultan con menos imperfecciones y mayor adherencia a las instrucciones proporcionadas.
Imagen: Chen et al.
PixArt ha sido diseñado para optimizar su rendimiento incluso en hardware más modesto. Es capaz de entrenarse de forma eficiente en GPUs V100 de 32 GB de VRAM en menos de 24 horas y su tecnología de inferencia de 8 bits posibilita la síntesis de imágenes de alta resolución en GPU de 8 GB, elevando su practicidad y accesibilidad para un mayor número de usuarios.
ControlNet y PixArt-δ: una mancuerna para la generación de imágenes controlada
ControlNet, una estructura innovadora incorporada en PixArt-δ, permite un manejo más preciso del proceso de creación de imágenes a partir de texto utilizando imágenes de referencia. Esta arquitectura, diseñada para modelos basados en transformadores, facilita un control explícito manteniendo la alta calidad de las imágenes generadas. Los investigadores han puesto a disposición los parámetros de PixArt-δ con ControlNet en Hugging Face, aunque la demostración online está disponible solo para versiones con y sin LCM de PixArt-α.
Imagen: Chen et al.
En resumen, PixArt-δ no solo mantiene el legado de su predecesor sino que lo supera, ofreciendo una herramienta potente y accesible para la creación de imágenes de alta resolución basadas en texto. Aúna velocidad, eficiencia y control, llevando la generación automática de imágenes a un nuevo nivel de excelencia.
Los investigadores han publicado los pesos de la variante ControlNet de PixArt-δ sobre Cara abrazada. Sin embargo, una demostración en línea parece estar disponible sólo para PixArt-α con y sin LCM.