2023-08-12 14:22:46
En determinadas circunstancias, los modelos de IA generalizan más allá de los datos de entrenamiento. Este fenómeno se denomina «grokking» en la investigación de la IA, y Google ofrece ahora información sobre hallazgos recientes.
Durante el entrenamiento, los modelos de IA a veces parecen «entender» de repente un problema aunque sólo hayan memorizado los datos de entrenamiento. En la investigación sobre IA, este fenómeno se denomina «grokking neologismo acuñado por el escritor estadounidense Robert A. Heinlein y utilizado principalmente en la cultura informática para describir un tipo de comprensión profunda.
Cuando se produce el grokking en los modelos de IA, éstos dejan de limitarse a reproducir los datos de entrenamiento para descubrir soluciones generalizables; así, en lugar de un loro estocástico, se puede obtener un sistema de IA que construya realmente un modelo del problema para hacer predicciones.
Los investigadores observaron por primera vez el grokking en 2021 mientras entrenaban pequeños modelos para realizar tareas algorítmicas. Los modelos se ajustaban a los datos de entrenamiento mediante memorización, pero su rendimiento era aleatorio en los datos de prueba. Tras un entrenamiento prolongado, la precisión en los datos de prueba mejoró repentinamente, ya que los modelos empezaron a generalizar más allá de los datos de entrenamiento. Desde entonces, este fenómeno se ha reproducido en varias pruebas, como Othello-GPT.
El equipo de Google demuestra que el «grokking» es un «fenómeno contingente»
El grokking ha suscitado mucho interés entre los investigadores de IA que quieren entender mejor cómo aprenden las redes neuronales. Esto se debe a que el grokking sugiere que los modelos pueden tener diferentes dinámicas de aprendizaje cuando memorizan y cuando generalizan, y comprender estas dinámicas podría proporcionar importantes conocimientos sobre cómo aprenden las redes neuronales.
Aunque inicialmente se observó en modelos pequeños entrenados en una única tarea, trabajos recientes sugieren que el grokking también puede darse en modelos más grandes y, en algunos casos, puede predecirse de forma fiable, según una nueva investigación de Google. Sin embargo, detectar estas dinámicas de grokking en modelos grandes sigue siendo un reto.
En el post, los investigadores de Google ofrecen una visión visual del fenómeno y de la investigación actual. El equipo entrenó a más de 1.000 modelos pequeños con diferentes parámetros de entrenamiento para tareas algorítmicas y muestra que «el fenómeno contingente – desaparece si el tamaño del modelo, la descomposición del peso, el tamaño de los datos y otros hiperparámetros no son los correctos».
El ‘grokking’ podría mejorar los grandes modelos de IA
Según el equipo, aún quedan muchas preguntas por responder, como qué restricciones del modelo causan grokking de forma fiable, por qué los modelos prefieren inicialmente memorizar los datos de entrenamiento y hasta qué punto los métodos utilizados en la investigación para estudiar el fenómeno en modelos pequeños pueden aplicarse a modelos grandes.
Los avances en la comprensión del grokking podrían servir de base para el diseño de grandes modelos de IA en el futuro, de modo que generalicen de forma fiable y rápida más allá de los datos de entrenamiento.