¿La mejor IA para crear imágenes? DALL-E 3 da un salto increíble de calidad.

65 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación+1

2023-09-24 13:56:39

Antes de su lanzamiento en octubre, el personal de OpenAI y los usuarios de la comunidad de investigación están compartiendo muestras de DALL-E 3. El salto respecto al modelo anterior es enorme.

OpenAI presentó DALL-E 3 con una imagen de un aguacate en terapia, quejándose a su psiquiatra de su sufrimiento, una cuchara: «Me siento tan vacío por dentro».

Por supuesto, OpenAI eligió esta imagen deliberadamente porque muestra dos nuevas competencias básicas de DALL-E 3 que han faltado en anteriores sistemas de texto a imagen:

DALL-E 3 puede escribir y, lo que es más importante,
DALL-E 3 puede convertir con precisión las especificaciones de una indicación en una imagen.

Gracias al soporte de ChatGPT, DALL-E 3 incluso escribe estas instrucciones por sí mismo. Todo lo que necesita es una idea de imagen del usuario, expresada en palabras. Todo funciona tan bien que, con el lanzamiento de DALL-E 3, OpenAI declara que la tan cacareada «ingeniería de instrucciones» ha llegado a su fin, al menos para los sistemas de imágenes, antes de haber empezado realmente. Ahora todo se basa en la creatividad, y no tanto en cómo poner las cosas en palabras muy específicas que parezcan una especie de lenguaje de programación impreciso.

Impresionantes ejemplos de DALL-E 3 en Twitter

Cualquiera que haya presenciado el lanzamiento de DALL-E 2 sabe que, en retrospectiva, el generador de imágenes estaba sobrevalorado y quedó rápidamente obsoleto gracias a Midjourney y Stable Diffusion.

OpenAI también eligió ejemplos que eran particularmente impresionantes cuando presentaron DALL-E 2. Eso es marketing legítimo, por supuesto. En la práctica, sin embargo, era mucho más difícil generar imágenes útiles con DALL-E 2 que con Midjourney, por ejemplo.

¿Será diferente con DALL-E 3? Sí, si nos fijamos en los ejemplos que los desarrolladores de OpenAI y los usuarios con acceso a DALL-E 3 están compartiendo en la plataforma que antes se llamaba Twitter. El hilo conductor de estos ejemplos es la asombrosa atención al detalle de DALL-E 3, probablemente debida a la mejor comprensión del texto que aporta la integración de GPT-4.

En el siguiente ejemplo, DALL-E 3 reproduce con éxito la tormenta que se ve a través de la ventana de la taza de café, tal y como se pedía en la solicitud. Una idea de imagen muy compleja que DALL-E 3 ejecuta correctamente.

DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Pregunta: «Un render 3D de una taza de café colocada en el alféizar de una ventana durante un día de tormenta. La tormenta fuera de la ventana se refleja en el café, con rayos en miniatura y olas turbulentas que se ven dentro de la taza. La habitación está tenuemente iluminada, lo que añade dramatismo a la atmósfera». | Imagen: DALL-E 3 impulsado por OpenAI

El siguiente ejemplo es similarmente complejo, mirando a través de un agujero de gusano en Nueva York a la ciudad de Shanghai, como se describe en el prompt. Los fondos de la ciudad muestran características típicas asociadas con la ciudad, como la Torre de la Perla Oriental, los taxis amarillos de Nueva York y el One World Trade Center.

1695570337 797 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: Will Depue

Igual de impresionante es la siguiente demostración de Nathan Shipley. En primer lugar, pide a DALL-E 3 que enumere 50 objetos cotidianos. A continuación, pide a DALL-E 3 que muestre cómo un surfista lleva esos 50 objetos a la espalda mientras se esfuerza por surfear (con razón).

1695570338 162 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: Nathan Shipley

1695570338 599 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: Nathan Shipley

En el siguiente vídeo, Shipley muestra cómo visualiza primero la idea de un perro salchicha en forma de nube con DALL-E 3, y luego deriva de ella un logotipo, merchandising e incluso el envoltorio de un videojuego.

El investigador de OpenAI Will Depue muestra numerosas imágenes de DALL-E 3 y lo califica como el mejor producto desde GPT-4. El caballo a lomos del astronauta es simbólico. Los anteriores sistemas de imágenes de texto no podían visualizar este concepto inusual («caballo sobre hombre») porque lo contrario es mucho más común. Así que en su lugar mostraban a un astronauta sobre un caballo, o simplemente tonterías.

Un astronauta montado a caballo. — «Astronauta montando a caballo» en Midjourney me da una imagen bonita, pero no es lo que pedí. | Bild: Midjourney provocado por THE DECODER

Para los críticos de la IA, éste ha sido durante mucho tiempo un ejemplo de su falta de generalización y comprensión del lenguaje. Gracias a DALL-E 3, esta crítica podría callar.

1695570339 528 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: Will Depue

1695570339 29 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: Carlos Davilla

Según Depue, la escena difícil no siempre sale bien a la primera. Pero con dos o tres retoques, dice, se puede conseguir con fiabilidad. «Con un poco de esfuerzo, puedes conseguir casi lo que quieras», escribe Depue.

Gracias a la compatibilidad con ChatGPT, DALL-E 3 también puede rellenar huecos en el propio prompt. En el siguiente ejemplo, el usuario pide una escena de dibujos animados de dos cebollas hablando, pidiendo un juego de palabras pero sin especificar el texto exacto.

1695570339 408 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: LoganGPT

DALL-E 3 incluso domina los reflejos del agua, aunque (aún) no invertidos. Depue también hace un trabajo espectacular con el meme de Pepe.

1695570339 971 DALL E 3 de OpenAI presta una increible atencion a los 2023-09-24 13:56:39 — Imagen: Will Depue

El investigador de OpenAI Andrej Karpathy comparte un nuevo flujo de trabajo potencial para los creadores de contenidos: A partir de un titular del Wall Street Journal, hace que DALL-E 3 genere una imagen que luego anima con la herramienta de vídeo de Pika Labs. Cree que es posible utilizar estos flujos de trabajo para convertir automáticamente historias en formatos audiovisuales.

OpenAI aún no ha comentado la tecnología que hay detrás de DALL-E 3. Presumiblemente, los modelos de consistencia de nuevo desarrollo sustituirán a los modelos de difusión utilizados hasta ahora. Permiten un renderizado más rápido manteniendo una alta calidad y el posterior procesamiento de la imagen.

En conjunto, parece que DALL-E 3 será un nuevo líder del sector en generación de imágenes cuando salga a la venta en octubre, y con bastante margen. Es cierto que las imágenes no son perfectas; muchos ejemplos muestran las imprecisiones e incoherencias típicas de la IA. Sin embargo, en general, el salto de calidad parece enorme a juzgar por las demostraciones.

Midjourney, competidor de DALL-E, también está trabajando en un importante salto de versión con la v6, que debería mejorar especialmente la comprensión de texto del modelo. La nueva versión saldrá a la venta antes de finales de año.