OpenAI explica algunos secretos de DALL-E 3 y comparte una comparación vs Midjourney y Stable Diffusion XL

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-10-30 18:39:06

OpenAI publica un artículo sobre la nueva IA de imagen DALL-E 3, en el que explica por qué la nueva IA de imagen sigue las indicaciones con mucha más precisión que otros sistemas comparables.

Como parte del despliegue completo de DALL-E 3, OpenAI publica un artículo sobre DALL-E 3: en él se aborda la cuestión de por qué DALL-E 3 puede seguir instrucciones con tanta precisión en comparación con los sistemas existentes. La respuesta ya está en el título del artículo: «Mejorando la generación de imágenes con mejores subtítulos»

Antes del entrenamiento real de DALL-E 3, OpenAI entrenó su propio etiquetador de imágenes de IA, que luego se utilizó para reetiquetar el conjunto de datos de imágenes para entrenar el sistema de imágenes real de DALL-E 3. Durante el proceso de reetiquetado, OpenAI prestó especial atención a las descripciones detalladas. Durante el proceso de reetiquetado, OpenAI prestó especial atención a las descripciones detalladas.

Antes de entrenar DALL-E 3, OpenAI entrenó experimentalmente tres modelos de imagen con tres tipos de anotación: humana, sintética breve y sintética detallada.

Incluso las anotaciones sintéticas cortas superaron significativamente a las anotaciones humanas en los puntos de referencia. Las anotaciones descriptivas largas funcionaron incluso mejor.

CLIP-Bewertungen für Text-Bild-Modelle, die auf verschiedene Beschriftungstypen trainiert wurden. | Bild: OpenAI
Puntuaciones CLIP para modelos texto-imagen entrenados con diferentes tipos de anotaciones. | Imagen: OpenAI

OpenAI también experimentó con una mezcla de diferentes estilos de anotación sintética y humana. Sin embargo, cuanto mayor es el porcentaje de anotación automática, mejor es la generación de imágenes. Por ejemplo, DALL-E 3 contiene un 95 por ciento de anotaciones de máquina y un 5 por ciento de anotaciones humanas.

Siguiente pregunta: DALL-E 3 está por delante de Midjourney 5.2 y Stable Diffusion XL

OpenAI ha probado la precisión de seguimiento de instrucciones de DALL-E 3 en pruebas sintéticas y con personas. En todas las pruebas sintéticas, DALL-E 3 supera a su predecesor, DALL-E 2, y a Stable Diffusion XL, en la mayoría de los casos por un margen significativo.

1697827560 358 OpenAI explica algunos secretos de DALL E 3 y comparte una 2023-10-30 18:39:06
Pruebas sintéticas. | Imagen: OpenAI

Más relevante es la evaluación humana en las dimensiones de seguimiento de instrucciones, estilo y coherencia. En particular, el resultado de la dimensión «Seguir la indicación» es claramente favorable a DALL-E 3 en comparación con Midjourney.

1697827560 860 OpenAI explica algunos secretos de DALL E 3 y comparte una 2023-10-30 18:39:06
Evaluación humana. | Imagen: OpenAI

Pero la nueva IA de imagen de OpenAI también rinde significativamente mejor que Midjourney 5.2 en términos de estilo y coherencia, y la IA de imagen de código abierto Stable Diffusion XL se queda aún más atrás. Según OpenAI, DALL-E 3 sigue teniendo problemas para localizar objetos en el espacio (izquierda, derecha, detrás, etc.).

En una nota a pie de página, OpenAI señala que la innovación en el etiquetado de imágenes es sólo una parte de las novedades de DALL-E 3, que presenta «muchas mejoras» con respecto a DALL-E 2. Así pues, la clara ventaja de DALL-E 3 sobre los sistemas de la competencia no se debe únicamente al etiquetado sintético de imágenes. OpenAI no aborda las demás mejoras de DALL-E 3 en el documento.

No descartes todavía a Midjourney

En términos de calidad de imagen, sin embargo, sigo viendo a Midjourney por delante. DALL-E 3 a veces tiende a tener un aspecto genérico de foto de archivo. Especialmente en las escenas fotorrealistas, DALL-E 3 es peor. La gente a menudo parece sintética. Además, Midjourney me da mucha más libertad creativa en cuanto a contenido y técnica a la hora de dar indicaciones.

Midjourney también quiere mejorar la precisión de las indicaciones en la versión 6 y podría alcanzar a DALL-E 3. DALL-E 2 de OpenAI también estableció nuevos estándares, pero el mercado lo superó rápidamente.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo