OpenAI explica algunos secretos de DALL-E 3 y comparte una comparación vs Midjourney y Stable Diffusion XL

39 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación+1

2023-10-30 18:39:06

OpenAI publica un artículo sobre la nueva IA de imagen DALL-E 3, en el que explica por qué la nueva IA de imagen sigue las indicaciones con mucha más precisión que otros sistemas comparables.

Como parte del despliegue completo de DALL-E 3, OpenAI publica un artículo sobre DALL-E 3: en él se aborda la cuestión de por qué DALL-E 3 puede seguir instrucciones con tanta precisión en comparación con los sistemas existentes. La respuesta ya está en el título del artículo: «Mejorando la generación de imágenes con mejores subtítulos»

Antes del entrenamiento real de DALL-E 3, OpenAI entrenó su propio etiquetador de imágenes de IA, que luego se utilizó para reetiquetar el conjunto de datos de imágenes para entrenar el sistema de imágenes real de DALL-E 3. Durante el proceso de reetiquetado, OpenAI prestó especial atención a las descripciones detalladas. Durante el proceso de reetiquetado, OpenAI prestó especial atención a las descripciones detalladas.

Antes de entrenar DALL-E 3, OpenAI entrenó experimentalmente tres modelos de imagen con tres tipos de anotación: humana, sintética breve y sintética detallada.

Incluso las anotaciones sintéticas cortas superaron significativamente a las anotaciones humanas en los puntos de referencia. Las anotaciones descriptivas largas funcionaron incluso mejor.

CLIP-Bewertungen für Text-Bild-Modelle, die auf verschiedene Beschriftungstypen trainiert wurden. | Bild: OpenAI — Puntuaciones CLIP para modelos texto-imagen entrenados con diferentes tipos de anotaciones. | Imagen: OpenAI

OpenAI también experimentó con una mezcla de diferentes estilos de anotación sintética y humana. Sin embargo, cuanto mayor es el porcentaje de anotación automática, mejor es la generación de imágenes. Por ejemplo, DALL-E 3 contiene un 95 por ciento de anotaciones de máquina y un 5 por ciento de anotaciones humanas.

Siguiente pregunta: DALL-E 3 está por delante de Midjourney 5.2 y Stable Diffusion XL

OpenAI ha probado la precisión de seguimiento de instrucciones de DALL-E 3 en pruebas sintéticas y con personas. En todas las pruebas sintéticas, DALL-E 3 supera a su predecesor, DALL-E 2, y a Stable Diffusion XL, en la mayoría de los casos por un margen significativo.

1697827560 358 OpenAI explica algunos secretos de DALL E 3 y comparte una 2023-10-30 18:39:06 — Pruebas sintéticas. | Imagen: OpenAI

Más relevante es la evaluación humana en las dimensiones de seguimiento de instrucciones, estilo y coherencia. En particular, el resultado de la dimensión «Seguir la indicación» es claramente favorable a DALL-E 3 en comparación con Midjourney.

1697827560 860 OpenAI explica algunos secretos de DALL E 3 y comparte una 2023-10-30 18:39:06 — Evaluación humana. | Imagen: OpenAI

Pero la nueva IA de imagen de OpenAI también rinde significativamente mejor que Midjourney 5.2 en términos de estilo y coherencia, y la IA de imagen de código abierto Stable Diffusion XL se queda aún más atrás. Según OpenAI, DALL-E 3 sigue teniendo problemas para localizar objetos en el espacio (izquierda, derecha, detrás, etc.).

En una nota a pie de página, OpenAI señala que la innovación en el etiquetado de imágenes es sólo una parte de las novedades de DALL-E 3, que presenta «muchas mejoras» con respecto a DALL-E 2. Así pues, la clara ventaja de DALL-E 3 sobre los sistemas de la competencia no se debe únicamente al etiquetado sintético de imágenes. OpenAI no aborda las demás mejoras de DALL-E 3 en el documento.

No descartes todavía a Midjourney

En términos de calidad de imagen, sin embargo, sigo viendo a Midjourney por delante. DALL-E 3 a veces tiende a tener un aspecto genérico de foto de archivo. Especialmente en las escenas fotorrealistas, DALL-E 3 es peor. La gente a menudo parece sintética. Además, Midjourney me da mucha más libertad creativa en cuanto a contenido y técnica a la hora de dar indicaciones.

Midjourney también quiere mejorar la precisión de las indicaciones en la versión 6 y podría alcanzar a DALL-E 3. DALL-E 2 de OpenAI también estableció nuevos estándares, pero el mercado lo superó rápidamente.

OpenAI explica algunos secretos de DALL-E 3 y comparte una comparación vs Midjourney y Stable Diffusion XL

Siguiente pregunta: DALL-E 3 está por delante de Midjourney 5.2 y Stable Diffusion XL

No descartes todavía a Midjourney

Bill Gates considera que la IA Generativa ha alcanzado un punto de estancamiento, afirma que GPT-5 no será mejor

La orden ejecutiva sobre IA del Presidente Biden pretende asegurar el futuro de Estados Unidos en inteligencia artificial

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta