2023-11-28 22:32:35
Q*, AGI y un CEO en paro por poco tiempo. El polvo se ha asentado. Lo que sabemos sobre el supuesto avance.
Un supuesto avance de la IA de OpenAI, conocido como Q*, habría suscitado preocupación a nivel interno por una posible amenaza para la humanidad, según un informe de Reuters. El descubrimiento precedió a la destitución del anterior consejero delegado de OpenAI, Sam Altman, y formaba parte de una lista de quejas presentadas a la junta directiva por investigadores preocupados, o eso se dice.
Aunque la naturaleza exacta de Q* sigue sin estar clara, Internet está haciendo lo que mejor sabe hacer: ofrecer desde conjeturas sobrias hasta especulaciones descabelladas.
Por qué es necesario un Q
Las tecnologías de IA actuales, como ChatGPT de OpenAI, son capaces de reconocer patrones, hacer inferencias y generar respuestas basadas en patrones vistos previamente. Sin embargo, carece de muchas capacidades que consideramos centrales para la inteligencia humana, como el razonamiento más o menos sólido. Por ejemplo, un experimento reciente demostró que los modelos lingüísticos no pueden generalizar la simple fórmula «A es B» a «B es A».
Al parecer, Q* puede resolver algunos problemas matemáticos. Los grandes modelos lingüísticos actuales son bastante malos en matemáticas, por lo que OpenAI utiliza plugins externos como Advanced Data Analytics para ampliar las capacidades matemáticas de ChatGPT. Más relevante para esta historia, sin embargo, es un artículo que la empresa publicó hace unos meses. En él, un equipo de la empresa consiguió mejorar significativamente las capacidades matemáticas de los modelos lingüísticos mediante algo llamado «supervisión de procesos».
La supervisión de procesos es una forma de aprendizaje por refuerzo en la que el modelo recibe retroalimentación humana en cada paso de su razonamiento, guiándolo hacia una respuesta correcta. Esto contrasta con la «supervisión de resultados», que se utiliza para el RLHF en ChatGPT. Los modelos de recompensa supervisados por procesos (PRM), que aprenden de los comentarios humanos, pueden utilizarse para la supervisión de procesos. El investigador de OpenAI John Schulman explicó el papel central de estos procesos en una presentación.
Lo que dicen los expertos sobre Q*
¿Qué tienen que ver las PMR con Q*? Podrían ser una parte importante del sistema que, según algunos expertos, probablemente combine las PMR con la planificación.
Además de los modelos lingüísticos, Q* probablemente se base en un método no lineal para explorar los «pensamientos», similar a Tree-of-Thoughts, Monte-Carlo Tree Search (MCTS), los PRM mencionados anteriormente y un algoritmo de aprendizaje como Q-learning. Jim Fan, de Nvidia, explica los detalles en un extenso en Twitter.com.
Si la hipótesis es correcta, Q* combina ideas como las de AlphaZero con modelos lingüísticos, algo similar a lo que los investigadores de Microsoft demostraron recientemente con «Everything of Thoughts». El equipo de Microsoft consiguió un rendimiento impresionante en juegos como Game of 24 o 8-Puzzle, pero no una fiabilidad del 100%.
No es ningún secreto que, en principio, una combinación así promete buenos resultados: Demis Hassabis, CEO de Google Deepmind, reveló en una entrevista que planean incorporar ideas de AlphaGo en Gemini.
Computación en tiempo de prueba y juegos de mesa
Como informa The Information, hay otro concepto que desempeña un papel importante: «Test-Time Compute». Se trata esencialmente de la cantidad de tiempo de que dispone un sistema para encontrar una respuesta. Se sabe que AlphaGo mejora significativamente su rendimiento cuando se le da más tiempo para buscar. Un estudio sistemático de este fenómeno con sistemas de IA que juegan al Hex ha demostrado que el cálculo de entrenamiento y el cálculo de inferencia del MCTS pueden compensarse entre sí casi uno a uno.
Se ha observado un fenómeno similar con la IA de póquer Libratus. Noam Brown, uno de los autores del artículo, se unió a OpenAI este verano y publicó un post en Twitter.com sobre la importancia del equilibrio entre el tiempo de entrenamiento y el tiempo de prueba.
Tiene grandes esperanzas puestas en la generalización de estos métodos más allá de los juegos.
«Todos esos métodos previos son específicos del juego. Pero si podemos descubrir una versión general, las ventajas podrían ser enormes. Sí, la inferencia puede ser 1.000 veces más lenta y costosa, pero ¿qué coste de inferencia pagaríamos por un nuevo medicamento contra el cáncer? ¿O por una prueba de la hipótesis de Riemann?».
Más información sobre Q*, Q-learning y algunas especulaciones
Sea lo que sea Q*, probablemente no sea una AGI y puede que ni siquiera represente un avance fundamental. Pero es probable que sea un ejemplo de la próxima generación de sistemas de IA que sean más fiables y resuelvan algunos o muchos de los problemas de los sistemas actuales como ChatGPT.
Tendremos que esperar más respuestas, mientras que la interpretación de los rumores sobre Q* ya ha adquirido un nivel que recuerda más a una versión de Silicon Valley de Q-Anon, con citas cortas sacadas de contexto, interpretación de estados emocionales de vídeos y exégesis general de AGI. Ya existe una supuesta carta falsa que presenta a Q* como un peligroso sistema de IA capaz de descifrar el cifrado.
Si quieres profundizar, puedes encontrar muchos artículos y vídeos que especulan sobre Q*. Forbes ha publicado un artículo en profundidad que entra en muchos detalles de los métodos y conceptos aquí mencionados. Investigador de IA Nathan Lambert ha publicado una de las primeras entradas del blog, en la que plantea la hipótesis de que Q* utiliza Árboles del Pensamiento y PRM.
Algunos vídeos relevantes:
CBCNews – breve resumen, incluida una entrevista con el investigador de IA Yoshua Bengio.
Yannic Kilcher: Explicación de Q-Learning
AI Explained – DeepDive y algunas especulaciones sobre los detalles de Q*.