2023-09-24 13:52:16
Un experimento demuestra que los modelos lingüísticos no pueden generalizar la simple fórmula «A es B» a «B es A». ¿Por qué?
Si la madre de Tom Cruise es Mary Lee Pfeiffer, ¿quién es el hijo de Mary Lee Pfeiffer? Para los humanos, la respuesta es obvia. Pero los grandes modelos lingüísticos no consiguen responder a esta pregunta, según un nuevo estudio de Owain Evans, investigador de alineación de IA de la Universidad de Oxford, y sus colegas.
Cuando se les pidió que respondieran a preguntas sobre hechos inventados acerca de personas ficticias utilizando modelos de código abierto perfeccionados para la tarea, y cuando se les pidió que respondieran a preguntas sobre personas reales y conocidas utilizando LLM populares como GPT-4, el equipo de investigación descubrió que un modelo lingüístico sólo puede responder de forma fiable en una dirección basándose en los datos de entrenamiento, pero no en la dirección lógicamente opuesta.
De hecho, cuando se probaron con ejemplos ficticios, los modelos probados tuvieron un cero por ciento de aciertos, y el rendimiento con ejemplos del mundo real también fue pobre.
Evans, el investigador de IA implicado, explica el fenómeno en términos de los datos de entrenamiento, en los que es probable que se describa a Mary Lee Pfeiffer como la madre de Tom Cruise con mucha más frecuencia que a Tom Cruise como el hijo de Mary Lee Pfeiffer. En total, el equipo de investigación encontró 519 hechos de este tipo sobre personajes famosos que el modelo sólo podía reproducir en una dirección.
Los modelos mostraban «un fallo básico de deducción lógica y no generalizaban un patrón predominante en su conjunto de entrenamiento», dice el artículo. Los investigadores llaman a este fenómeno la «maldición de la inversión». Afirman que es un fenómeno robusto que afecta a modelos de distintos tamaños y familias y que no se ve mitigado por el aumento de datos.
GPT-4 sufre la misma maldición, pero le da una buena explicación
Para su experimento con preguntas sobre personas ficticias, los investigadores utilizaron modelos GPT-3 y LLaMA ajustados. También utilizaron GPT-4, ampliamente considerado como el mejor LLM disponible en la actualidad, para las preguntas sobre personajes famosos de la vida real. Cuando se preguntó por los padres, GPT-4 acertó el 79% de las veces, pero sólo el 33% cuando se preguntó por los hijos. Otros modelos obtuvieron resultados aún peores.
He probado el Tom Cruise pregunta con GPT-4 y obtuve el fallo descrito. Es sólo en la conclusión en la misma ventana de chat que el modelo puede hacer la conexión bidireccional entre madre e hijo. Puedes preguntar a GPT-4 por qué falla, y esto es lo que responde, que en realidad es similar a lo que dice Evans.
El error se produjo debido a la forma en que el modelo maneja las preguntas y recupera la información. Cuando se le pregunta por «Mary Lee Pfeiffer» de forma aislada, es posible que el modelo no asocie inmediatamente el nombre con la madre de Tom Cruise, sobre todo si el nombre no se menciona con frecuencia en ese contexto en los datos con los que fue entrenado. Sin embargo, cuando se le preguntó directamente por la madre de Tom Cruise, el modelo la identificó correctamente. Se trata de una limitación del modelo en el manejo del contexto y el reconocimiento de patrones. Le agradezco su comprensión y paciencia.
GPT-4
Pero la idea de que los modelos lingüísticos no pueden hacer inferencias lógicas per se es una simplificación excesiva de la maldición de la inversión, escriben los investigadores, porque los LLM pueden resolver tareas A-B-B-A en la misma ventana contextual (es decir, la misma charla). Pero los LLM están entrenados para predecir lo que la gente escribirá, no lo que es cierto, afirman. Además, GPT-4 está entrenado para no revelar información sobre los individuos.
Un ejemplo: Cuando pregunté por el hijo de Mary Lee Pfeiffer, el GPT-4 respondió que respetaba la «intimidad de las personas no públicas» y que no debía revelar información personal sin permiso.
Así pues, los investigadores teorizan que un LLM puede dar una respuesta incorrecta aunque lógicamente pueda inferir la respuesta correcta. Por lo tanto, la maldición de la inversión muestra principalmente que los LLM son malos metaaprendices, dice el artículo de investigación, y esto puede ser un problema de formación.
«La co-ocurrencia de ‘A es B’ y ‘B es A’ es un patrón sistemático en los conjuntos de pre-entrenamiento. Los LLM autorregresivos fracasan completamente en el metaaprendizaje de este patrón, sin cambios en sus probabilidades logarítmicas y sin mejoras en el escalado de 350M a 175B parámetros», escribe Evans.
Además, dice Evans, a la gente también le cuesta más recitar, por ejemplo, el abecedario al revés. «La investigación (y la introspección) sugiere que es más difícil recuperar información en orden inverso».
Andrej Karpathy, investigador de OpenAI y antiguo jefe de IA de Tesla, respondió a la investigación a través de Twitter, hablando de «conocimientos parciales de LLM». Los modelos podrían generalizar en una dirección dentro de la ventana contextual, pero no generalizar ese conocimiento en otras direcciones cuando se les pregunta. Karpathy llama a esto una «extraña generalización parcial», de la que la maldición de la inversión es un caso especial.
Los datos del estudio son disponibles en Github.