
2024-02-08
Puntos Claves:
- MobileDiffusion de Google es un modelo de IA que crea imágenes a partir de texto en smartphones de manera rápida y eficiente.
- El modelo es más pequeño y ligero que otros, con solo 520 millones de parámetros, lo que lo hace perfecto para dispositivos móviles.
- A pesar del impresionante rendimiento en la generación de imágenes, Google aún no ha lanzado MobileDiffusion al público.
MobileDiffusion de Google es una forma rápida y eficaz de crear imágenes a partir de texto en smartphones.
MobileDiffusion: Innovación en Generación de Imágenes de IA para Smartphones
Google ha creado una solución revolucionaria con MobileDiffusion, que permite transformar texto en imágenes sorprendentemente rápidas en smartphones. Este modelo de difusión es ideal para teléfonos móviles debido a su diseño compacto, con solo 520 millones de parámetros, notablemente menor en comparación con otros modelos como Stable Diffusion y SDXL, que cuentan con miles de millones.
Con MobileDiffusion, los usuarios podrán disfrutar de imágenes de 512 x 512 píxeles en cerca de medio segundo en dispositivos Android y iPhones. El proceso de generación de imágenes es interactivo y se ajusta en tiempo real mientras se escribe, proporcionando una experiencia de usuario excepcional tal y como se evidencia en el vídeo de demostración de Google.
Este modelo innovador consta de un trío de componentes críticos para su desempeño: un codificador de texto, una red de difusión y un decodificador de imágenes. La UNet integrada dispone de capas especializadas como la autoatención y atención cruzada, las cuales son fundamentales para el análisis efectivo del texto en los modelos de difusión.
Google ha sabido enfrentar la complejidad computacional de las capas usuales mediante la implementación de la estructura UViT, que consiste en adicionar más bloques transformadores en una sección de baja dimensión de la UNet. Esta estrategia consigue disminuir los requisitos de recursos, permitiendo así su operación fluida en teléfonos móviles.
Además, para una destilación más eficaz y efectiva, Google emplea una técnica de muestreo de uno a ocho niveles combinada con una red adversaria generativa híbrida (GAN). Aunque esta tecnología promete democratizar la generación de imágenes desde texto en dispositivos móviles, Google aún no ha liberado este modelo para uso público, ni ha comunicado planes específicos para hacerlo.
Avances en la Generación de Imágenes AI en Tiempo Real
Anteriormente, Qualcomm demostró que la generación de imágenes mediante la difusión estable podría realizarse en smartphones de manera acelerada gracias a la optimización de su tecnología IA. Por aquel entonces, un smartphone Android de alta gama lograba producir imágenes de 512 x 512 píxeles, aunque el proceso tomaba alrededor de 15 segundos, un tiempo significativamente superior al de MobileDiffusion.
La superioridad de MobileDiffusion radica en su capacidad de ofrecer resultados veloces en cualquier plataforma, independientemente del sistema operativo que se utilice. Incluso en modelos de vanguardia como el iPhone 15 Pro, el método de Google superó al Galaxy S24, mostrando su compatibilidad y eficiencia en los sistemas operativos móviles más populares.
Vale destacar que otros modelos recientes, como SDXL Turbo o PixArt-δ, han logrado avances en la generación casi instantánea de imágenes, aunque requieren sistemas más potentes para su funcionamiento. MobileDiffusion, sin embargo, demuestra ser un cambio de juego en la disponibilidad y velocidad de generación de imágenes de IA en entornos móviles.
La generación de imágenes es cada vez más rápida
El año pasado, Qualcomm demostró que un smartphone podía generar rápidamente imágenes basadas en la difusión estable.

La ventaja del método MobileDiffusion de Google es que ofrece resultados rápidos en todos los sistemas, independientemente del sistema operativo. Es incluso mejor en el iPhone 15 Pro que en el último buque insignia de Samsung, el Galaxy S24, que funciona con Android de Google.
Gracias a la optimización de la pila de IA de Qualcomm, el fabricante de chips estadounidense pudo ejecutar el generador de imágenes en lo que entonces era un smartphone Android de gama alta, un avance tecnológico notable en aquel momento, en febrero de 2023. Sin embargo, generar una imagen de 512 x 512 píxeles y 20 pasos de inferencia seguía llevando unos 15 segundos.