Sistema de seguridad de múltiples niveles para limitar la capacidad de DALL·E 3

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-10-26 06:03:43

Puntos destacados:

– 🚫 Implementamos un sistema de seguridad de múltiples niveles para limitar la generación de imágenes potencialmente dañinas por parte de DALL·E 3.
– 🔄 Trabajamos con usuarios tempranos y expertos en seguridad para identificar y abordar posibles vulnerabilidades en nuestros sistemas de seguridad.
– 📢 El feedback de los usuarios es crucial para mejorar continuamente nuestra IA y garantizar una representación demográfica mejorada en las imágenes generadas.

Utilizamos un sistema de seguridad de múltiples niveles para limitar la capacidad de DALL·E 3 de generar imágenes potencialmente dañinas, incluyendo contenido violento, adulto u odioso. Se realizan controles de seguridad a través de las indicaciones de los usuarios y las imágenes resultantes antes de que sean presentadas a los usuarios. También trabajamos con usuarios tempranos y expertos en seguridad para identificar y abordar posibles vacíos en la cobertura de nuestros sistemas de seguridad que surgieron con las nuevas capacidades del modelo. Por ejemplo, la retroalimentación nos ayudó a identificar casos extremos para la generación de contenido gráfico, como imágenes sexuales, y someter a prueba la capacidad del modelo para generar imágenes engañosas de manera convincente.

Como parte del trabajo realizado para preparar DALL·E 3 para su implementación, también hemos tomado medidas para limitar la probabilidad de que el modelo genere contenido en el estilo de artistas reconocidos, imágenes de figuras públicas y mejorar la representación demográfica en las imágenes generadas. Para leer más sobre el trabajo realizado para preparar DALL·E 3 para una implementación amplia, consulte la tarjeta del sistema DALL·E 3.

La retroalimentación de los usuarios ayudará a garantizar que sigamos mejorando. Los usuarios de ChatGPT pueden compartir comentarios con nuestro equipo de investigación utilizando el ícono de la bandera para informarnos sobre salidas inseguras o salidas que no reflejan con precisión la indicación que le dieron a ChatGPT. Escuchar a una comunidad diversa y amplia de usuarios y tener una comprensión del mundo real es fundamental para desarrollar e implementar la IA de manera responsable y es fundamental para nuestra misión.

Estamos investigando y evaluando una versión inicial de un clasificador de procedencia, una nueva herramienta interna que puede ayudarnos a identificar si una imagen fue generada por DALL·E 3. En evaluaciones internas iniciales, tiene una precisión de más del 99% para identificar si una imagen fue generada por DALL·E cuando la imagen no ha sido modificada. La precisión se mantiene por encima del 95% cuando la imagen ha sido sometida a tipos comunes de modificaciones, como recorte, cambio de tamaño, compresión JPEG o cuando se superponen texto o recortes de imágenes reales en pequeñas porciones de la imagen generada.

A pesar de estos sólidos resultados en las pruebas internas, el clasificador solo puede indicarnos que es probable que una imagen haya sido generada por DALL·E, y aún no nos permite llegar a conclusiones definitivas. Este clasificador de procedencia puede convertirse en parte de una serie de técnicas para ayudar a las personas a comprender si el contenido de audio o visual fue generado por IA. Es un desafío que requerirá colaboración en toda la cadena de valor de la IA, incluidas las plataformas que distribuyen contenido a los usuarios. Esperamos aprender mucho sobre cómo funciona esta herramienta y dónde podría ser más útil, y mejorar nuestro enfoque con el tiempo.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo