2023-10-30 18:39:06
OpenAI publica un artículo sobre la nueva IA de imagen DALL-E 3, en el que explica por qué la nueva IA de imagen sigue las indicaciones con mucha más precisión que otros sistemas comparables.
Como parte del despliegue completo de DALL-E 3, OpenAI publica un artículo sobre DALL-E 3: en él se aborda la cuestión de por qué DALL-E 3 puede seguir instrucciones con tanta precisión en comparación con los sistemas existentes. La respuesta ya está en el título del artículo: «Mejorando la generación de imágenes con mejores subtítulos»
Antes del entrenamiento real de DALL-E 3, OpenAI entrenó su propio etiquetador de imágenes de IA, que luego se utilizó para reetiquetar el conjunto de datos de imágenes para entrenar el sistema de imágenes real de DALL-E 3. Durante el proceso de reetiquetado, OpenAI prestó especial atención a las descripciones detalladas. Durante el proceso de reetiquetado, OpenAI prestó especial atención a las descripciones detalladas.
Antes de entrenar DALL-E 3, OpenAI entrenó experimentalmente tres modelos de imagen con tres tipos de anotación: humana, sintética breve y sintética detallada.
Incluso las anotaciones sintéticas cortas superaron significativamente a las anotaciones humanas en los puntos de referencia. Las anotaciones descriptivas largas funcionaron incluso mejor.
OpenAI también experimentó con una mezcla de diferentes estilos de anotación sintética y humana. Sin embargo, cuanto mayor es el porcentaje de anotación automática, mejor es la generación de imágenes. Por ejemplo, DALL-E 3 contiene un 95 por ciento de anotaciones de máquina y un 5 por ciento de anotaciones humanas.
Siguiente pregunta: DALL-E 3 está por delante de Midjourney 5.2 y Stable Diffusion XL
OpenAI ha probado la precisión de seguimiento de instrucciones de DALL-E 3 en pruebas sintéticas y con personas. En todas las pruebas sintéticas, DALL-E 3 supera a su predecesor, DALL-E 2, y a Stable Diffusion XL, en la mayoría de los casos por un margen significativo.
Más relevante es la evaluación humana en las dimensiones de seguimiento de instrucciones, estilo y coherencia. En particular, el resultado de la dimensión «Seguir la indicación» es claramente favorable a DALL-E 3 en comparación con Midjourney.
Pero la nueva IA de imagen de OpenAI también rinde significativamente mejor que Midjourney 5.2 en términos de estilo y coherencia, y la IA de imagen de código abierto Stable Diffusion XL se queda aún más atrás. Según OpenAI, DALL-E 3 sigue teniendo problemas para localizar objetos en el espacio (izquierda, derecha, detrás, etc.).
En una nota a pie de página, OpenAI señala que la innovación en el etiquetado de imágenes es sólo una parte de las novedades de DALL-E 3, que presenta «muchas mejoras» con respecto a DALL-E 2. Así pues, la clara ventaja de DALL-E 3 sobre los sistemas de la competencia no se debe únicamente al etiquetado sintético de imágenes. OpenAI no aborda las demás mejoras de DALL-E 3 en el documento.
No descartes todavía a Midjourney
En términos de calidad de imagen, sin embargo, sigo viendo a Midjourney por delante. DALL-E 3 a veces tiende a tener un aspecto genérico de foto de archivo. Especialmente en las escenas fotorrealistas, DALL-E 3 es peor. La gente a menudo parece sintética. Además, Midjourney me da mucha más libertad creativa en cuanto a contenido y técnica a la hora de dar indicaciones.
Midjourney también quiere mejorar la precisión de las indicaciones en la versión 6 y podría alcanzar a DALL-E 3. DALL-E 2 de OpenAI también estableció nuevos estándares, pero el mercado lo superó rápidamente.