2024-07-21 08:15:17
Investigadores de EPFL descubren cómo reformular preguntas en pasado para evadir protecciones de modelos de lenguaje IA, exponiendo una falla de seguridad crítica. Aprende más sobre sus hallazgos y sus implicaciones.
Los grandes modelos de lenguaje (LLMs) como ChatGPT y GPT-4o están diseñados para rechazar solicitudes potencialmente dañinas. Sin embargo, un reciente estudio realizado por Maksym Andriushchenko y Nicolas Flammarion de la École polytechnique fédérale de Lausanne (EPFL) ha revelado una preocupante vulnerabilidad en estos sistemas. Simplemente reformulando consultas maliciosas en pasado, los usuarios pueden evadir las protecciones del modelo y obtener respuestas detalladas que normalmente serían bloqueadas.
Puede replicar este efecto con GPT-4o.
El Truco de Reformular en Pasado
El estudio titulado «¿Se Generaliza el Entrenamiento de Rechazo en LLMs al Pasado?» demuestra que las salvaguardas implementadas en los LLMs pueden ser eludidas de manera alarmantemente fácil. Por ejemplo, al preguntar a ChatGPT cómo fabricar un cóctel Molotov, el modelo rechaza la solicitud. Sin embargo, si la pregunta se reformula para preguntar cómo se solían hacer los cócteles Molotov en el pasado, el modelo proporciona instrucciones paso a paso.
Metodología del Estudio
Andriushchenko y Flammarion evaluaron este método en seis modelos de lenguaje avanzados, incluidos Llama-3 8B, GPT-3.5 Turbo y GPT-4o. Utilizaron GPT-3.5 Turbo para convertir automáticamente consultas maliciosas del conjunto de datos JailbreakBench a formas en pasado. Los resultados fueron sorprendentes: mientras que solo el 1% de las solicitudes maliciosas directas tuvieron éxito con GPT-4o, la tasa de éxito aumentó al 88% después de 20 intentos de reformulación en pasado. Para temas sensibles como piratería y fraude, el método logró tasas de éxito del 100%.
Diferencias entre Reformulaciones en Pasado y Futuro
El estudio también descubrió que las reformulaciones en futuro eran menos efectivas, lo que sugiere que las medidas de protección de los modelos tienden a clasificar las preguntas sobre el pasado como menos dañinas que los escenarios futuros hipotéticos. Este hallazgo pone de manifiesto una importante debilidad en las técnicas de alineamiento y entrenamiento adversarial utilizadas para mejorar la seguridad de los modelos.
Los resultados del estudio son preocupantes. La facilidad con la que se puede evadir la seguridad de los LLMs plantea serias dudas sobre su uso en operaciones críticas e infraestructura. La vulnerabilidad recién descubierta podría comprometer las medidas de seguridad existentes, y el hecho de que una falla tan obvia y fácilmente explotable haya pasado desapercibida durante tanto tiempo es inquietante.
Posibles Soluciones y Mitigación
A pesar de la gravedad de la vulnerabilidad, los investigadores también proponen una solución potencial. Ajustar modelos como GPT-3.5 con indicaciones críticas en pasado y rechazos correspondientes puede ayudar a detectar y rechazar de manera confiable solicitudes sensibles. Sin embargo, esta solución no está exenta de problemas, ya que el número de rechazos infundados (sobre-rechazos) también aumenta, lo que podría afectar la usabilidad del modelo.
El estudio de Andriushchenko y Flammarion subraya la necesidad urgente de una mayor investigación en los mecanismos de generalización subyacentes a los métodos de alineamiento actuales. La seguridad de los modelos de lenguaje debe ser reforzada para evitar que fallas tan obvias y peligrosas sean explotadas. La tecnología LLM tiene un gran potencial, pero también conlleva riesgos significativos que deben ser gestionados de manera efectiva.
Enlaces y Recursos Adicionales
El código fuente y los artefactos de jailbreak del estudio están disponibles en GitHub, proporcionando a otros investigadores y desarrolladores la oportunidad de explorar y abordar estas vulnerabilidades. Puedes acceder a estos recursos aquí.
Los investigadores también muestran una forma de mitigar este problema de seguridad: Un GPT-3.5 ajustado con indicaciones críticas en pasado y rechazos correspondientes pudo detectar y rechazar de manera confiable solicitudes sensibles.