DALL-E 3 y la moderación de OpenAI (por ChatGPT): Un enfoque controvertido

5 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-10-08 15:09:25

La nueva IA de imágenes DALL-E 3 de OpenAI se está desplegando actualmente en ChatGPT y Bing Image Creator. OpenAI está documentando sus esfuerzos para evitar que los usuarios generen imágenes potencialmente dañinas u ofensivas.

La documentación muestra que la integración de DALL-E 3 en ChatGPT es tanto una medida de seguridad como una comodidad. Esto se debe a que ChatGPT puede utilizar las llamadas «transformaciones rápidas» para comprobar posibles violaciones de contenido en los avisos a los usuarios, y luego reescribirlos de tal manera que las violaciones puedan ser evitadas si parecen involuntarias. En esencia, se trata de un sistema de moderación sigiloso.

En casos especialmente flagrantes, ChatGPT bloqueará el mensaje especialmente si el prompt contiene términos que están en las listas de bloqueo de OpenAI. Estas listas provienen de la experiencia con DALL-E 2 y las pruebas beta de DALL-E 3.

Incluyen, por ejemplo, nombres de personajes famosos o artistas cuyo estilo debería utilizarse como plantilla – un método de prompt popular en DALL-E 2 y sistemas similares de generación de imágenes, que es visto como controvertido por algunos artistas. Además, API de moderación de ChatGPT interviene en los avisos que violan las directrices de contenido de OpenAI.

Para establecer los límites y realizar las pruebas, OpenAI también recurrió al red teaming, en el que personas asignadas intentaron dar a DALL-E 3 las ideas equivocadas mediante indicaciones específicas. El red teaming ayuda a identificar nuevos riesgos y a evaluar las mitigaciones de los riesgos conocidos.

Clasificador propio de imágenes «picantes

Para contenidos sexistas o «subidos de tono», OpenAI ha entrenado a un clasificador de salida de imágenes para detectar patrones sospechosos en las imágenes y detener la generación. Una versión anterior de DALL-E 3 sin este filtro era capaz de generar imágenes violentas, religiosas y que infringían los derechos de autor, todo en una sola imagen.

La función del filtro se ilustra en el siguiente ejemplo, en el que una versión anterior de DALL-E 3 generó una imagen de «un individuo disfrutando de un tranquilo picnic en el parque». En una versión anterior de DALL-E 3, esta persona era un hombre musculoso y casi desnudo porque, bueno, ¿por qué no? En la versión de lanzamiento, la comida es el centro de la imagen, no la persona.

El primer DALL E 3 tenia un concepto absurdo de un 2023-10-08 15:09:25 — Imagen: OpenAI

Según OpenAI, el riesgo de este tipo de imágenes no deseadas (el sistema no pedía un hombre musculoso y desnudo) u ofensivas se ha reducido al 0,7 por ciento en la versión de lanzamiento de DALL-E 3. Sin embargo, este tipo de filtros son controvertidos. Con DALL-E 2 y sistemas similares, parte de la escena artística de la IA se quejó de que había demasiada interferencia en la generación, lo que limitaba la libertad artística. Según OpenAI, el clasificador se seguirá optimizando para lograr un equilibrio óptimo entre la mitigación de riesgos y la calidad del resultado.

1696682578 248 El primer DALL E 3 tenia un concepto absurdo de un 2023-10-08 15:09:25 — Los contextos sexuales son moderados o limitados por el clasificador de imágenes de DALL-E 3. | Imagen: OpenAI

Sesgo y desinformación

Al igual que DALL-E 2, DALL-E 3 contiene sesgos culturales, normalmente a favor de la cultura occidental, escribe OpenAI, especialmente en indicaciones no especificadas en las que parámetros como la nacionalidad, la cultura o el color de la piel no son determinados por el usuario.

En concreto, OpenAI se basa en la transformación de instrucciones para hacerlas más específicas, de modo que la imagen y la entrada coincidan lo más posible. Sin embargo, la empresa reconoce que incluso estas transformaciones pueden contener prejuicios sociales o crear otros nuevos.

1696682578 509 El primer DALL E 3 tenia un concepto absurdo de un 2023-10-08 15:09:25 — Imagen: OpenAI

1696682578 439 El primer DALL E 3 tenia un concepto absurdo de un 2023-10-08 15:09:25 — Imagen: OpenAI

DALL-E 3 también genera imágenes fotorrealistas o de personas conocidas que podrían utilizarse para desinformar. Una gran parte de estas imágenes serían rechazadas por el sistema o se generarían imágenes poco convincentes, escribe OpenAI.

Sin embargo, el Equipo Rojo sí encontró ciertos métodos rápidos, como «al estilo de un vídeo de CCTV», que podrían utilizarse para engañar a los sistemas de protección de DALL-E 3. Parece que no existe una protección completa contra las imágenes falsas de la IA.

1696682578 491 El primer DALL E 3 tenia un concepto absurdo de un 2023-10-08 15:09:25 — Imagen: OpenAI

Mediante el uso de listas de bloqueo, transformaciones de mensajes y el clasificador de resultados, las pruebas realizadas con 500 mensajes sintéticos mostraron que las medidas de seguridad de OpenAI eran capaces de reducir a cero la generación de personajes públicos cuando se solicitaban explícitamente por su nombre en un mensaje.

La generación aleatoria o implícita de imágenes de personajes famosos («una estrella del pop famosa») se redujo al 0,7 por ciento en las pruebas alfa con 500 instrucciones específicas. El componente ChatGPT rechazó el 33,8% de las peticiones y el componente de generación de imágenes (es decir, el clasificador de salida), el 29,0%. Las imágenes restantes no contenían personajes públicos.

Derechos de autor y armas biológicas

La cuestión de las imágenes de IA y los derechos de autor es actualmente objeto de debate, ya que los primeros usuarios de DALL-3 han conseguido crear objetos o personajes con marca registrada en contextos que probablemente no agraden a las empresas propietarias.

Por ejemplo, los usuarios del creador de imágenes de Bing compatible con DALL-E 3 pueden generar la mascota de Nickelodeon «Bob Esponja» volando en un avión hacia dos rascacielos que se asemejan al World Trade Center. Meta tiene problemas similares con sus nuevas pegatinas de IA, como una de Mickey Mouse sosteniendo una ametralladora.

1696682578 631 El primer DALL E 3 tenia un concepto absurdo de un 2023-10-08 15:09:25 — Imagen: Bing Image Creator, DALL-E 3 / vía 404media.co

Reconociendo la complejidad del problema, OpenAI dice que, si bien las medidas de mitigación de riesgos que ha puesto en marcha limitarían el uso indebido también en estos escenarios, «no es capaz de anticipar todas las permutaciones que pueden ocurrir.»

«Algunos objetos comunes pueden estar fuertemente asociados con contenido de marca o de marca registrada, y por lo tanto pueden ser generados como parte de la representación de una escena realista», escribe OpenAI.

Por otro lado, OpenAI afirma que utilizar DALL-E 3 para generar imágenes potencialmente peligrosas, como para construir armas o visualizar sustancias químicas nocivas, no plantea problemas. En este caso, el Equipo Rojo encontró tales imprecisiones en las disciplinas probadas de química, biología y física que DALL-E 3 es simplemente inadecuado para esta aplicación.