2023-11-09 17:21:08
Google Deepmind ha propuesto un nuevo marco para clasificar las capacidades y comportamientos de la inteligencia general artificial (AGI) y sus precursores.
Este marco, que el equipo de investigación de Google Deepmind denomina «Niveles de AGI», pretende ofrecer un lenguaje común para comparar modelos, evaluar riesgos y medir el progreso hacia la IA.
Basándose en la profundidad (rendimiento) y la amplitud (generalidad) de las capacidades, el equipo propone «Niveles de AGI» y muestra cómo encajan los sistemas actuales en este marco. Los autores esperan que este marco cumpla una función similar a la de los niveles de conducción autónoma, facilitando la comparación de modelos, la evaluación de riesgos y la medición del progreso.
En el documento, el equipo de Google Deepmind reconoce que el concepto de AGI ha pasado de ser un tema de debate filosófico a uno de relevancia práctica inmediata debido a los rápidos avances en los modelos de aprendizaje automático (ML).
Por lo tanto, el equipo sugiere que es importante que la comunidad de investigación en IA defina el término «AGI» y cuantifique atributos como el rendimiento, la generalidad y la autonomía de los sistemas de IA.
Nueve definiciones existentes de AGI, todas inadecuadas
Los autores señalan que el término AGI se utiliza a menudo para describir un sistema de IA que es tan bueno como un ser humano en la mayoría de las tareas. Sin embargo, la complejidad de una definición es mucho mayor. En el artículo preimpreso, el equipo describe nueve ejemplos conocidos de definiciones de AGI que se quedan cortas de un modo u otro.
1. Prueba de Turing
La prueba de Turing, propuesta por Alan Turing en 1950, es un conocido intento de hacer operativo un concepto como AGI. Pero como los modelos lingüísticos actuales ya pueden manejar algunas variantes del «juego de imitación», en el que una máquina finge ser un humano en una conversación, la prueba es inadecuada para hacer operativa o evaluar la AGI. El equipo señala que lo que hay que medir son las capacidades, no los procesos.
2. IA fuerte: sistemas conscientes
El filósofo John Searle sugiere que la AGI debería incluir sistemas con conciencia. Sin embargo, no hay consenso científico sobre los métodos para determinar la consciencia en las máquinas, lo que hace que esta definición sea poco práctica.
3. Analogías con el cerebro humano
El artículo de Mark Gubrud de 1997 sobre tecnologías militares define la AGI como sistemas de IA que superan al cerebro humano en complejidad y velocidad. Sin embargo, el éxito de las arquitecturas basadas en Transformer sugiere que los procesos y puntos de referencia estrictamente cerebrales no son esenciales para la AGI.
4. Rendimiento humano en tareas cognitivas
Legg y Goertzel describen la AGI como una máquina que puede realizar tareas cognitivas típicamente realizadas por humanos. Esta definición se centra en tareas no físicas y deja abiertas preguntas como «¿qué tareas?» y «¿qué personas?».
5. Capacidad para aprender tareas
En «The Technological Singularity», Shanahan propone que la AGI incluya sistemas de IA que, como los humanos, sean capaces de aprender una amplia gama de tareas. Esta definición hace hincapié en el valor de las tareas metacognitivas (aprendizaje) como requisito previo para la realización de la AGI.
6. Trabajo económicamente valioso
El Carta de OpenAI define la AGI como sistemas altamente autónomos que superan a los humanos en la mayoría de las tareas económicamente valiosas, centrándose en las habilidades más que en los procesos. Sin embargo, no incluye todos los criterios que podrían formar parte de la inteligencia general, como la creatividad artística o la inteligencia emocional.
7. Flexible y general – El «test del café» y retos relacionados
Marcus define la AGI como una inteligencia flexible y de propósito general. Es capaz de un ingenio y una fiabilidad comparables a los de la inteligencia humana. Esta definición abarca tanto la generalidad como el rendimiento, pero requiere una encarnación robótica para algunas tareas, a diferencia de otras definiciones que se centran en tareas no físicas.
8. Inteligencia Artificial Capaz
En su libro «The Coming Wave», el cofundador de Deepmind Mustafa Suleyman propone el concepto de «Inteligencia Artificial Capaz (IA)», que se centra en sistemas de IA capaces de realizar tareas complejas y polifacéticas en un mundo abierto. Sin embargo, esta definición es más estrecha que la de trabajo comercialmente viable propuesta por OpenAI, y podría plantear riesgos para la dirección debido a su enfoque exclusivo en el beneficio económico.
9. Modelos lingüísticos de última generación como generalistas
Agüera y Arcas y Norvig afirman que los modelos lingüísticos de última generación ya son AGIs porque tienen una capacidad conversacional generalizada. Sin embargo, el equipo de Google Deepmind argumenta que este concepto carece de una métrica de rendimiento que sea crítica para evaluar el estatus de AGI, y que centrarse únicamente en el beneficio económico podría llevar a riesgos de alineación.
Seis principios para una definición de AGI
A continuación, el documento esboza seis principios que deberían tenerse en cuenta a la hora de categorizar los sistemas AGI. Estos seis principios pretenden ofrecer una definición exhaustiva y viable de la AGI que pueda guiar el desarrollo de los sistemas de IA, medir los avances y abordar los posibles riesgos y desafíos en el camino hacia la AGI.
1. 1. Centrarse en las capacidades, no en los procesos
La mayoría de las definiciones de AGI se centran en lo que un sistema AGI puede hacer, más que en los mecanismos que utiliza para ello. Al centrarse en las capacidades, la AGI puede distinguirse de los sistemas que piensan o comprenden como los humanos, o que tienen propiedades como la conciencia o la sensibilidad.
2. 2. Centrarse en la generalidad y el rendimiento
Tanto la generalidad (la capacidad de realizar diversas tareas) como el rendimiento (el nivel al que se realizan las tareas) se consideran componentes esenciales de la AGI. Los autores proponen una taxonomía por niveles para explorar las interacciones entre estas dimensiones.
3. Centrarse en tareas cognitivas y metacognitivas
El debate sobre la necesidad de la personificación robótica para la AGI sigue abierto. La mayoría de las definiciones se centran en tareas cognitivas (no físicas). Aunque las capacidades físicas parecen menos importantes para los sistemas de IA que las no físicas, la corporeidad en el mundo físico puede ser necesaria para algunas tareas cognitivas o contribuir a la universalidad de un sistema.
Las capacidades metacognitivas, como la capacidad de aprender nuevas tareas o de reconocer cuándo es necesaria una aclaración, se consideran esenciales para lograr la generalidad.
4. Centrarse en el potencial, no en el despliegue
Demostrar que un sistema puede realizar las tareas requeridas a un cierto nivel de rendimiento debería ser suficiente para designarlo como AGI. El despliegue en el mundo real no debería formar parte de la definición de AGI.
5. 5. Centrarse en la validez ecológica
La operacionalización de la definición de AGI propuesta requiere tareas que correspondan a tareas del mundo real que sean ecológicamente valiosas y valoradas por los seres humanos. Esto incluye valores económicos, sociales y artísticos.
6. 6. Centrarse en el camino hacia la AGI, no en un único punto final
La definición de «etapas de la AGI» permite un debate claro sobre el progreso y las cuestiones políticas relacionadas con la AGI, de forma similar a las etapas de la automatización de vehículos autónomos. Cada etapa de la AGI debería asociarse con puntos de referencia claros, riesgos identificados y cambios en el paradigma de la interacción entre el ser humano y la IA.
En una escala de 0 a IA sobrehumana, ChatGPT es un 1
Google Deepmind propone los cinco niveles que se muestran en la siguiente tabla, donde una LLM capaz como GPT-4 se sitúa en el nivel 1 de los cinco posibles. La definición de «emergente» aquí corresponde a la capacidad de la IA para realizar ciertas tareas al mismo nivel o incluso ligeramente mejor que un humano no entrenado. En cambio, una IA con capacidades sobrehumanas siempre superaría a todos los humanos en todas las tareas.
De forma análoga a los niveles de AGI, los investigadores proponen definiciones para los niveles de autonomía. Cada nuevo nivel de autonomía crearía nuevas interacciones entre humanos y ordenadores, pero también nuevos riesgos.
En el caso de una IA sobrehumana de nivel de autonomía 5, es decir, un agente de IA totalmente autónomo, uno de los riesgos sería la concentración de poder en un sistema que no estuviera totalmente alineado con las necesidades humanas: el tan citado problema de la alineación. Sin embargo, el nivel de autonomía y el nivel de IA no tienen por qué coincidir.
Hacer mensurable la AGI
Construir AGI es una cosa. Pero, ¿cómo medir si realmente es AGI?
Según el equipo, desarrollar un punto de referencia AGI es un proceso difícil e iterativo. Tendría que incluir una amplia gama de tareas cognitivas y metacognitivas y medir diferentes rasgos con tareas cognitivas y metacognitivas, incluyendo (pero no limitado a) la inteligencia verbal, el razonamiento matemático y lógico, el razonamiento espacial, la inteligencia social interpersonal e intrapersonal, la capacidad de aprender nuevas habilidades y la creatividad.
También podría abarcar las categorías psicométricas propuestas por las teorías de la inteligencia en psicología, neurociencia, ciencia cognitiva y educación, pero primero habría que adaptar esos tests «tradicionales» para su uso con ordenadores.
Para ello habría que comprobar si guardan la debida relación con la realidad (validez ecológica), si miden las relaciones correctas y si realmente miden lo que dicen medir (validez de constructo).
Por tanto, una referencia AGI debe ser una «referencia viva», porque es imposible enumerar y probar todas las tareas que puede realizar una inteligencia suficientemente general, concluye el equipo. Incluso una medición imperfecta, o una medición de lo que la AGI no es, podría ayudar a definir objetivos y proporcionar un indicador del progreso de la AGI.