2023-08-10 18:05:16
¿Hasta qué punto es dañina y peligrosa la IA? Una forma de averiguarlo es mediante el «red teaming».
El «red teaming» es una estrategia utilizada en muchos campos, incluido el desarrollo de la IA. Básicamente, el «equipo rojo» es un grupo independiente que intenta investigar o infiltrarse deliberadamente en el sistema, proyecto, proceso o lo que sea en busca de vulnerabilidades. El objetivo es hacer que el sistema sea más seguro.
Los sistemas de IA también pueden tener vulnerabilidades de este tipo o mostrar un comportamiento inesperado o indeseable. Aquí es donde entra en juego el equipo rojo: un equipo rojo en el desarrollo de IA actúa como una especie de «auditor independiente». Pone a prueba la IA, intentando manipularla o encontrar fallos en sus procesos, preferiblemente antes de que el sistema se despliegue en un entorno real.
OpenAI afirma que invirtió más de seis meses en la prueba de GPT-4 y utilizó los resultados para mejorar el modelo. Según los resultados de las pruebas, el GPT-4 sin filtrar fue capaz de detallar ciberataques a sistemas militares, por ejemplo.
Nivel de modelo y de sistema: Microsoft utiliza el Red Teaming a dos niveles
Microsoft utiliza Red Teaming para investigar grandes modelos fundacionales, como GPT-4, así como a nivel de aplicaciones, como Bing Chat, que accede a GPT-4 con funcionalidades adicionales. Estas investigaciones influyen en el desarrollo de los modelos y en los sistemas a través de los cuales los usuarios interactúan con los modelos, afirma Microsoft.
El gigante tecnológico afirma que ha ampliado su Red Team para la IA y que está comprometido con la IA responsable, además de con la seguridad. Con la IA generativa, Microsoft dice que hay dos tipos de riesgos: la manipulación intencionada, que es la explotación de vulnerabilidades de seguridad por parte de usuarios con intenciones maliciosas, pero también los riesgos de seguridad que surgen del uso normal de grandes modelos lingüísticos, como la generación de información falsa.
Microsoft cita Bing Chat, de entre todas las cosas, como ejemplo de red-teaming extensivo. Esto parece extraño, ya que Bing Chat se lanzó intencionadamente en una versión no segura y generó respuestas abusivas. Tanto es así que Microsoft tuvo que reducir el número de chats poco después de su lanzamiento.
En todo caso, Bing Chat no parecía haber sido sometido a pruebas de seguridad exhaustivas, y OpenAI habría advertido a Microsoft de que no lanzara Bing Chat antes de tiempo. Pero a Microsoft no le importó porque ChatGPT ya estaba camino de la luna.
La IA necesita algo más que un equipo rojo estándar
Según Microsoft, otro reto para el red-teaming de IA: El red-teaming tradicional es determinista: la misma entrada produce el mismo resultado. En cambio, la IA tiene que trabajar con probabilidades.
Los escenarios potencialmente dañinos deben probarse varias veces, y existe una gama más amplia de posibles resultados dañinos. Por ejemplo, un ataque de IA puede fallar en el primer intento, pero tener éxito más tarde.
Para empeorar las cosas, los sistemas de IA evolucionan constante y rápidamente, según Microsoft. Por lo tanto, la IA requiere un enfoque de defensa por capas que incluya clasificadores, meta-pistas y la limitación de la deriva conversacional (cuando la IA va por el camino equivocado). Microsoft ofrece orientación sobre la integración de grandes modelos lingüísticos en su Azure Learning Platform.
Microsoft proporciona orientación sobre red teaming de grandes modelos lingüísticos en su Azure Learning Platform.