2023-07-28 15:16:43
Un filtrador en Discord afirma tener acceso a un nuevo modelo de imagen de OpenAI. Muestra un progreso significativo, especialmente en la generación de fuentes y la coincidencia de avisos.
El filtrador apareció por primera vez en un canal de Discord en mayo, afirmando ser parte de una prueba alfa de un nuevo modelo de imagen de IA de OpenAI. En ese momento, mostró imágenes generadas específicamente para el canal, que según él procedían de un nuevo modelo de imagen entrenado por OpenAI.
A mediados de julio, reapareció y mostró más ejemplos que afirmaba haber generado utilizando una versión de prueba «alfa cerrada» de lo que podría o no ser DALL-E 3. Según el filtrador, el modelo está actualmente al alcance de unas 400 personas.
El filtrador fue invitado por correo electrónico y afirma haber participado en las pruebas de DALL-E y DALL-E 2. Según el filtrador, la versión de prueba del nuevo modelo de imagen no está censurada y, por tanto, puede contener escenas de violencia y desnudos o material protegido por derechos de autor, como logotipos de empresas.
Las imágenes muestran la típica marca de DALL-E en la esquina inferior derecha, pero podría ser fácilmente falsa. En cualquier caso, las nuevas generaciones superan las capacidades actuales de modelos como Midjourney y SD XL en cuanto a detalles y fuentes.
Según el probador, los resultados también son «significativamente» mejores que los de Google Parti, que ya estaban muy por delante de DALL-E 2 cuando Google lo presentó hace aproximadamente un año. A modo de comparación, el autor de la filtración probó las indicaciones del documento Parti. Sin embargo, se dice que Midjourney sigue por delante con las generaciones fotorrealistas.
Mejor tipo de letra y precisión
Las demostraciones del filtrador muestran que el potencial modelo DALL-E 3 es mucho mejor en el manejo de la tipografía, por ejemplo, cuando se incluye una frase en el prompt que debe aparecer como una frase en la pantalla, como muestra el siguiente ejemplo.

Aunque sigue habiendo errores en las palabras, en general el nuevo modelo muestra una mejor comprensión del lenguaje. Curiosamente, en el ejemplo anterior, el modelo escribe «afraid» (miedo) a pesar de que la indicación dice «afriad», probablemente un error ortográfico que el modelo corrigió. Esto también podría significar que la escritura en la imagen no es 1:1.
La mejor comprensión del lenguaje del nuevo modelo le permite representar con precisión incluso composiciones de imágenes complejas con muchos detalles abstractos, como la siguiente escena de queso y animales o el wombat frío en una silla de playa.

El ejemplo de los animales de queso es especialmente impresionante porque en muchos modelos se produce el llamado desbordamiento de conceptos, es decir, el modelo de imagen mezcla diferentes conceptos de contenido. El modelo potencial de DALL-E 3 separa claramente los conceptos del animal de queso y del animal real.

El siguiente ejemplo de Midjourney con el mismo prompt ilustra el concepto spillover. Aquí, el queso no se ha convertido en una vaca, pero uno de los tres perros (en lugar de uno) tiene cuernos que parecen estar hechos de queso.

DALL-E 2 va a por todas con el queso, ni siquiera intenta poner un animal de verdad, sólo se ciñe a un concepto.

Si buscas al usuario «Kaamalauppias», puedes encontrar algunos más generaciones potenciales de DALL-E-3 en este canal de Discord.
OpenAI y otros ensayan la IA de imágenes de próxima generación
DALL-E 2 fue rápidamente superado por Midjourney y Stable Diffusion tras su lanzamiento, y luego se perdió en el revuelo que rodeó a ChatGPT y GPT-4. Por supuesto, esto no significa que OpenAI haya dejado de trabajar en sistemas de IA de imagen.
La primera señal de esto fue la introducción del Creador de Imágenes de Bing, que según Microsoft utiliza una «versión mejorada» de DALL-E 2. No se conocen los detalles, y los resultados del Creador de Imágenes no están al nivel de Midjourney o Stable Diffusion XL, incluso con DALL-E 2.5.
Desde la introducción de DALL-E 2, han ocurrido muchas cosas en el campo de los modelos de imagen en general, y empresas como Meta han introducido nuevas arquitecturas que pueden generar imágenes y fuentes de forma más eficiente y con mayor precisión.
En particular, el último modelo de imagen de Meta, CM3leon, al menos basándose en los ejemplos seleccionados, parece proporcionar un nivel de detalle similar al de las posibles generaciones de DALL-E 3 mostradas anteriormente. Además, CM3leon ha sido entrenado exclusivamente con material con licencia.
A principios de este año, Google presentó Muse, un modelo de imagen de IA de alta velocidad que también puede seguir instrucciones con más precisión que los modelos anteriores y generar texto.
En abril, el equipo de investigación OpenAI dio a conocer una nueva arquitectura denominada «Modelos de consistencia», que genera mucho más rápido que los modelos de difusión clásicos como DALL-E 2 manteniendo una alta calidad, un posible preludio para la generación de vídeo.
Se han logrado avances significativos en los modelos de imagen de IA, pero aún no se han convertido en un producto. Puede que DALL-E-3 cambie pronto esa situación.