
2023-11-23 14:11:27
El nuevo sistema de IA de Deepmind juega a juegos de mesa como el ajedrez y el go, pero también hace limpieza en la mesa de póquer. Por qué es un verdadero reto.
Google Deepmind tiene un largo historial en el desarrollo de sistemas de IA para juegos de mesa y videojuegos. Deepmind saltó a la fama por primera vez con una inteligencia artificial que dominaba una serie de juegos de Atari mediante aprendizaje por refuerzo profundo.
Desde entonces, los sistemas de IA de Deepmind han derrotado a un campeón del mundo de Go con AlphaGo, han vencido a sus propios predecesores con AlphaGo Zero y AlphaZero, han vencido a profesionales del juego con AlphaStar y han introducido un modelo de IA que aprende reglas de juego por sí solo con MuZero.
La investigación de Deepmind para juegos de mesa y videojuegos es una investigación fundamental que puede aplicarse potencialmente a otras aplicaciones de IA económicamente atractivas.
Estudiante de juegos: de especialista a multitalento
Los juegos pueden dividirse a grandes rasgos en dos categorías: Los que revelan toda la información, como la posición de las piezas, y los que ocultan información, como las cartas de otros jugadores.
Los juegos de información perfecta son la especialidad de AlphaZero. El sistema puede jugar a todo tipo de juegos de mesa, como el ajedrez o el Go, a un nivel sobrehumano. Los sistemas de IA para juegos con información imperfecta, como el póquer, también rinden ahora a un alto nivel: en 2016, la IA de póquer DeepStack venció a profesionales humanos. A mediados de 2019, Facebook demostró una IA de póquer capaz de vencer a cinco jugadores simultáneamente en un torneo.
Pero: AlphaZero no juega al póquer, DeepStack no juega al ajedrez: los sistemas son especialistas.
El último sistema de inteligencia artificial de Deepmind, Student of Games (SoG), está cambiando todo esto. Combina la búsqueda guiada,
aprendizaje automático y razonamiento teórico de juegos.
Según el artículo publicado en Science, SoG es el «primer algoritmo que logra un sólido rendimiento empírico en grandes juegos de información perfecta e imperfecta, un paso importante hacia algoritmos verdaderamente generales para entornos arbitrarios».
Student of Games unifica enfoques anteriores
La receta del éxito de AlphaZero consistió en conocer las reglas del juego y, a continuación, utilizar un algoritmo de búsqueda para jugar innumerables partidas contra sí mismo. Para el algoritmo de búsqueda, el sistema de IA se basa en la búsqueda profunda de árboles de decisión, más concretamente en MCTS (Monte Carlo Tree Search). Sin embargo, este método no es adecuado para juegos con información incompleta, en los que las consideraciones teóricas del juego, como ocultar las propias intenciones, son esenciales.
Para SoG, Deepmind cambia el algoritmo de búsqueda: SoG comienza con un simple árbol de decisión de posibles estrategias y juega contra sí mismo. Después de cada partida, el sistema analiza cómo una decisión diferente en cada situación habría cambiado el resultado de la partida. Con este método de aprendizaje contrafactual -denominado minimización del arrepentimiento contrafactual en árbol creciente (GT-CFR)-, el árbol de decisión crece a lo largo del entrenamiento.
El entrenamiento permite a SoG jugar al ajedrez, al go, al póquer y a Scotland Yard. Deepmind probó el sistema de IA contra diversos bots, como AlphaZero, GnuGo, Stockfish y Slumbot. En póquer y Scotland Yard, SoG ganó la mayoría de las partidas. En Ajedrez y Go, SoG perdió el 99,5% de las partidas contra AlphaZero. No obstante, el sistema juega a un nivel muy alto de aficionado, dice Deepmind.
Los investigadores sugieren que es posible introducir nuevas mejoras y quieren averiguar si se puede conseguir un rendimiento similar con muchos menos recursos informáticos.
Una primera versión del trabajo se publicó en Arxiv en 2021, por aquel entonces el sistema se llamaba Jugador de Juegos.