2023-07-15 15:25:54
DALL-E 2 de OpenAI muestra la impresionante creatividad de la IA – si sabes cómo controlarla. Un pequeño recorrido por DALL-E 2 en 2023.
DALL-E 2 de OpenAI fue pionero en modelos generativos de IA y la primera oferta de conversión de texto en imagen del mercado. Mucho ha llovido desde entonces: Han surgido alternativas como Midjourney, que suelen producir mejores resultados con indicaciones menos complicadas, y el modelo subyacente se mejora con regularidad. También existe una alternativa de código abierto con Stable Diffusion y Stable Diffusion XL.
Pero con las indicaciones adecuadas y para aplicaciones especiales como inpainting, DALL-E todavía puede tener sentido. Un ejemplo: DALL-E convierte mi petición «un busto antiguo de un filósofo griego con un casco de realidad virtual, realista, fotografía, 2023» en una imagen adecuada, aunque de baja resolución, pero Midjourney se niega a añadir un casco de realidad virtual al busto de mucha mayor resolución.
A continuación me gustaría ofrecerte una breve visión de las funciones de DALL-E 2 y de los fundamentos de la ingeniería rápida.
OpenAI DALL-E 2 puede crear, editar o modificar imágenes
La interfaz de usuario de DALL-E 2 es muy sencilla: A través de un campo de entrada puedes introducir tu comando de imagen de texto, el llamado «prompt», y enviarlo al sistema de IA pulsando «Generar». Tras una breve espera, se muestran cuatro imágenes generadas.

Debajo del campo de entrada, también puedes subir tu propia imagen, siempre que no muestre a una persona real. A partir de las imágenes cargadas y de las recién creadas, DALL-E 2 puede generar variantes. Esto hace que sea relativamente fácil crear imágenes inspiradas en temas existentes que luego se pueden editar. De este modo, el sistema de IA puede controlarse con mayor precisión.

Además, la función de edición puede utilizarse para marcar un área en la imagen, que luego puede ser modificada por DALL-E 2. Para ello, simplemente debe describirse de nuevo el resultado deseado a través de la consulta de texto.

DALL-E 2 genera entonces tres variantes del original que contienen los cambios correspondientes. Aquí he añadido un elegante bigote a la estatua.

OpenAI DALL-E 2 y la ingeniería del prompt
Como ya se desprende del ejemplo del antiguo busto del pionero griego de la RVDALL-E 2 puede controlarse mediante texto. OpenAI ha entrenado el sistema de IA con más de 650 millones de imágenes, por lo que DALL-E 2 ha visto y puede reproducir numerosos sujetos, estilos, exposiciones y otras propiedades de la imagen.
Utilizando los llamados ingeniería rápida – DALL-E 2 puede, por ejemplo, generar imágenes fotorrealistas con diferentes especificaciones de lente para simular distancias focales pequeñas o desenfoque de movimiento.

Con las descripciones adecuadas, también puede captar estados de ánimo, definir estructuras o proporciones, reproducir estilos como el steampunk o el cyberpunk, determinar ángulos de cámara y exposición, o utilizar el diseño de series de televisión o películas como plantilla.
DALL-E 2 puede imitar numerosos estilos de ilustración, así como arte en 3D o pinturas históricas. Esta capacidad de imitar estilos también es demostrada por DALL-E 2 para numerosos estilos artísticos, artistas individuales u obras específicas.


Si quieres captar el estilo de una determinada obra de arte o artista, también puedes recurrir a la ayuda de la IA: En la llamada desagregaciónse puede pedir a modelos como ChatGPT o GPT-4 que describan las características y el estilo de un cuadro. La respuesta de la IA puede utilizarse entonces para la ingeniería de instrucciones.
Además de bustos antiguos, DALL-E 2 también puede crear otros objetos: desde bordados hasta estatuas, cuerpos, animales disecados, arquitectura o sillas de diseño, todo está ahí.

DALL-E 2: Seis consejos para una pronta ingeniería
Aspectos de prompt | Explicación |
---|---|
Precisión | Utilice descripciones precisas para los objetos o escenas deseados, por ejemplo, «un husky blanco jugando en un bosque nevado». |
Adjetivos y adverbios | Añade adjetivos y adverbios para dar más detalles, por ejemplo: «una bicicleta de carretera azul reluciente en un camino vacío». |
Creatividad | Sé creativo con tus indicaciones, por ejemplo, «un perro hecho de nubes». |
Compara | Utiliza comparaciones para aclarar tus ideas, por ejemplo, «una casa cuyo color es tan amarillo como el de los plátanos maduros». |
Contexto | Considere el contexto en el que se utilizan las imágenes, por ejemplo, fotos de mariposas de colores para un libro infantil. |
Simplicidad | Sé conciso y céntrate en uno o dos elementos clave, por ejemplo, el personaje principal y el escenario. |
DALL-E 2: Edición de imágenes externas y outpainting
Con la función de edición ya introducida, se pueden cambiar detalles de la imagen, como añadir un bigote, sustituir objetos o todo el fondo.
Como las imágenes generadas también se pueden descargar, se puede utilizar un programa externo de edición de imágenes para sacar aún más partido a DALL-E 2. En la versión más sencilla, se puede reducir el tamaño de nuestro busto del filósofo griego y utilizarlo como base para una nueva imagen.

Se pueden añadir cuadros con el mismo método. DALL-E 2 puede dar cuerpo a Mona Lisa, y nuestro filósofo griego de RV consigue compañía.

Si repites este proceso a menudo, podrás ampliar la imagen cada vez más: algunos artistas ya crean impresionantes viajes por mundos de DALL-E 2 o murales gigantes.
Pintar con DALL-E 2 es superdivertido. Con un poco de ingenio, puedes crear obras de arte arbitrariamente grandes como los murales que se muestran a continuación, que supongo que son los más grandes #dalle-produced imágenes creadas hasta el momento. pic.twitter.com/DDQUMSmgYq
– David Schnurr (@_dschnurr) 19 de abril de 2022
Combinando el procesamiento externo de imágenes, la ingeniería inteligente de avisos y la función de edición de DALL-E 2, son posibles muchas otras aplicaciones.
Si quieres profundizar más, deberías echar un vistazo al DALL-E 2 Prompt Book de Guy Parsons. Ofrece una visión general de muchos de los consejos de ingeniería de instrucciones descubiertos hasta ahora, así como métodos adicionales para sacar el máximo partido a DALL-E 2. Muchos de estos consejos también pueden aplicarse a Midjourney o Stable Diffusion.