Más allá de la casa de muñecas virtual: simular la vida en los juegos

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-07-31 08:42:42

Nuestro colaborador invitado, Ran Mo, nos habla del uso de la IA para simular la vida en los videojuegos. Como antiguo jefe de producto de EA, trabajó en un clásico del sector: Los Sims. Ahora quiere ir más allá.

La simulación de la vida, las amistades y el compañerismo ha sido un santo grial en los videojuegos. Desde las sencillas implementaciones de Tamagotchi y Pokémon hasta las complejas vidas de Los Sims, la incorporación de compañeros virtuales ha calado hondo en millones de jugadores y ha constituido la columna vertebral de algunas de las franquicias más duraderas.

En el fondo, el proceso de creación de compañeros digitales es también una búsqueda para comprender mejor la naturaleza de la sensibilidad. Y, como veremos, las técnicas utilizadas también tendrán amplias aplicaciones más allá de los juegos.

A medida que la tecnología, en particular la IA, se hace más potente, se abren nuevas oportunidades para reimaginar la vida digital y las compañías. Este ensayo se divide en dos partes. La primera parte repasa algunos de los hitos históricos más importantes en la simulación digital de la vida. La Parte 2 explora nuestros esfuerzos en Proxima para avanzar en esta búsqueda. Empecemos.

El punto de partida: Guionizar la «vida» en los videojuegos

El punto de partida de la programación moderna de videojuegos es el scripting. Se trata de un término muy amplio que engloba muchos conceptos, desde programas muy sencillos hasta complejos árboles de decisiones y máquinas de estados. Sin embargo, en el fondo, el scripting no tiene tanto que ver con la «verdadera inteligencia» como con respuestas deterministas que siguen una serie de reglas predefinidas, básicamente versiones digitales de libros de aventuras de «elige tu propia aventura».

A pesar de su naturaleza mecánica, los scripts pueden ser increíblemente poderosos a la hora de crear inmersión. Mass Effect y Dragon Age, dos populares franquicias de BioWare, utilizan los guiones para crear profundas relaciones con los compañeros de los jugadores. En función de sus decisiones, los jugadores pueden desbloquear historias, influir en los resultados del juego e incluso entablar relaciones románticas con sus compañeros digitales. La popularidad de ambas franquicias es un testimonio del poder de la narración inmersiva creada por el ser humano.

El reto de los scripts es, en última instancia, la escalabilidad. Los diseñadores no sólo tienen que diseñar cada interacción a mano, sino también tener en cuenta todas las permutaciones posibles de la elección del jugador. Esto significa que el coste del contenido aumenta exponencialmente con la experiencia del jugador. Imaginemos lo siguiente: un jugador elige entre tres opciones diferentes para una interacción concreta. En función de su elección, se abren tres nuevas opciones, y así sucesivamente, hasta un total de 30 opciones a lo largo del juego. Esta secuencia de decisiones (suponiendo que no haya solapamientos) requeriría más escenarios preprogramados que granos de arena en la Tierra. Está claro que se necesita un planteamiento diferente para crear inmersión a escala.

Los Sims y la IA basada en la utilidad

Tuve la oportunidad de trabajar en la franquicia de Los Sims en EA, y fue increíble ver la pasión que infunde la franquicia. Hoy, más de 70 millones de personas juegan a Los Sims. La cuarta entrega del juego ha recaudado más de 2.000 millones de dólares, y su popularidad sigue creciendo.

En el corazón de la franquicia están los Sims, compañeros digitales autónomos con sus propias necesidades, preferencias y deseos. Los jugadores pueden controlarlos de vez en cuando o construir para ellos entornos más amplios. Pero estos agentes también son perfectamente capaces de dirigir sus propias vidas. En contraste con las historias preplanificadas y guionizadas de Mass Effect, Los Sims hace hincapié en las narrativas emergentes que se forman a través de estos compañeros autónomos. En términos más sencillos, Los Sims son una simulación de la vida.

Will Wright, el creador de Los Sims, consultó dos fuentes para su «casa de muñecas virtual»: La primera fue la «Teoría de la motivación humana» de Maslow, en la que los deseos humanos se clasifican en jerarquías. La segunda fueron los «Mapas de la mente» de Charles Hampden-Turner, en los que se catalogan y organizan los pensamientos.

La combinación de estas dos fuentes inspiró el motor de IA de Los Sims, conocido como IA basada en la utilidad. En este sistema, la IA se equilibra entre dos mecánicas: las materias primas y las utilidades. Los productos básicos representan los estados internos, o necesidades psicológicas, de cada Sim, y las curvas de utilidad representan los medios para satisfacer esos productos básicos. Por ejemplo, una necesidad interna (la mercancía) podría ser el «hambre», y las distintas opciones de comida (cocinar o calentar las sobras) representan formas de satisfacer esa necesidad. La IA evalúa simultáneamente cientos de necesidades y decisiones asociadas -la necesidad de comer, la necesidad de pertenencia, la necesidad de encontrar el amor- y las prioriza en la toma de decisiones. En muchos aspectos, esto no difiere mucho de cómo tomamos decisiones los humanos.

Sin embargo, a pesar de los muchos logros de Los Sims IA, hay algo que se echa en falta. Cada Sim parece atrapado en una rueda de molino perpetua de autooptimización, ciego al universo más allá de sus necesidades inmediatas. Carece de la capacidad de forjar conexiones con los jugadores más allá del alcance de sus propias necesidades. Las relaciones auténticas trascienden la mera optimización; implican aprender, experimentar y crecer juntos. Para conseguirlo, necesitamos un enfoque diferente.

Black & White y el aprendizaje por refuerzo

El juego Black & White se lanzó en 2001. Black & White era un «god-game» en el que los jugadores encarnaban a seres divinos que gobernaban a desventurados ciudadanos. Pero la verdadera estrella era una criatura compañera a la que los jugadores influían indirectamente. La criatura tenía el poder de nutrir o destruir, y tenía intenciones y deseos propios.

Los jugadores no podían controlar directamente a la criatura, pero podían influir en sus decisiones mediante recompensas y castigos (por ejemplo, caricias y bofetadas) y, con el tiempo, a través de estas acciones, moldear a la criatura para el bien o para el mal.

Sin que los jugadores lo supieran, la criatura estaba controlada por algoritmos de aprendizaje por refuerzo. Las acciones de los jugadores, como acariciar y abofetear, se convertían en los datos de entrenamiento que moldeaban los deseos, creencias e intenciones de la criatura a lo largo del tiempo. En palabras más sencillas, la criatura podía aprender.

Black & White fue uno de los primeros juegos en utilizar la inteligencia artificial moderna en los videojuegos. Fue un éxito comercial y de crítica. IGN lo calificó de «experiencia milagrosa». Pero Black & White también estaba muy adelantado a su tiempo: estaba muy limitado por los algoritmos y la potencia de cálculo de su época. Los procesadores tenían una potencia muy inferior a la actual, y las GPU dedicadas -necesarias para el procesamiento moderno de la IA- estaban aún en pañales.

Sin embargo, la historia de Black & White no terminó ahí. El programador de IA del juego era un joven ingeniero llamado Demis Hassabis. Después de Black & White y otras aventuras en la industria del videojuego, Hassabis volvió a la universidad para completar su doctorado en neurociencia cognitiva. Tras graduarse, Hassabis fundó la empresa de inteligencia artificial DeepMind, de la que sigue siendo consejero delegado. En 2014, DeepMind fue adquirida por Google por unos 500 millones de dólares, y en 2016, la empresa saltó a los titulares cuando su programa AlphaGo venció a un campeón mundial en el antiguo juego del Go. Hoy en día, la tecnología de aprendizaje por refuerzo de DeepMind se utiliza desde predicciones de estructuras de proteínas hasta la mejora de la eficiencia de parques eólicos. Es curioso pensar que todo esto empezó construyendo compañeros digitales en los juegos.

Hoy y más allá

El reciente auge de la innovación en IA ha rejuvenecido el interés por simular la vida en los juegos. Uno de los enfoques consiste en integrar chatbots conversacionales directamente en el juego, como en este caso. mod de Elder Scrolls. Este enfoque es atractivo porque es relativamente fácil de imaginar e implementar: conecta un chatbot a un avatar del juego, integra el reconocimiento de voz y la conversión de texto a voz, añade una buena dosis de historia del juego, ¡y voilà tienes un auténtico PNJ parlante!

Pero estas implementaciones son bastante superficiales y no verdaderas simulaciones de la vida. El juego actúa simplemente como decorado para el chatbot, y la novedad de este tipo de experiencias puede desaparecer rápidamente.

En cambio, una implementación más profunda es el proyecto Minecraft Voyager, en el que un agente impulsado por LLM explora el mundo de Minecraft y aprende habilidades sin intervención humana. El agente propuso sus propias tareas, construyó su propia biblioteca de conocimientos y utilizó esos aprendizajes para avanzar en sus descubrimientos. Sin ayuda humana, Voyager entendió el mundo de Minecraft, construyó su propia casa y acabó extrayendo diamantes.

Dos cosas nos llamaron la atención: la capacidad del agente para dar sentido a su mundo y su capacidad para formar recuerdos a largo plazo a través de la experiencia. ¿Y si pudiéramos aprovechar esas capacidades no como un agente de juego autónomo, sino para simular mejor la vida y el compañerismo?

Prototipo de Lumari

Como punto de partida de lo que pretendemos conseguir, consideremos un momento muy pequeño con un perro llamado Nemo.

  • Percepción: Nemo ve a una persona desconocida y de aspecto aterrador que se acerca a su dueño
  • Entrada: La dueña grita con fuerza y agita los brazos
  • Memoria y personalidad: Nemo recuerda que es muy protector con su dueño, y que es intrépido cuando el dueño está bajo amenaza.

En un instante, Nemo interpreta todo esto y toma una decisión. Entra en acción, salta entre su dueño y el intruso y gruñe amenazadoramente, listo para atacar. Después, Nemo es apreciado por su valentía y recompensado con una golosina, lo que refuerza su comportamiento.

Pero, ¿y si Nemo no fuera valiente, sino cobarde? ¿Elegiría ladrar desde lejos? ¿Y si el intruso fuera en realidad un amigo al que el dueño está deseando ver? ¿Se regañaría a Nemo por gruñir a un amigo y, en ese caso, lo recordaría para la próxima vez? Estos momentos emergentes ponen de relieve los matices de las relaciones en la vida real, que no pueden programarse de antemano. Sin embargo, estos momentos son también los que hacen que los compañeros se sientan reales y auténticos. Creemos que la tecnología moderna ha avanzado hasta un punto en el que podemos empezar a abordar esas relaciones llenas de matices.

Muchos modelos modernos de IA se basan en una arquitectura de red neuronal conocida como transformadores. A través de su mecanismo de atención, los transformadores destacan a la hora de dar sentido al contexto y las dependencias entre fuentes de datos grandes y dispares. Al simular la vida en los juegos, estas fuentes de datos podrían representar la memoria, la percepción, las órdenes del usuario, etc. Para entenderlo mejor, transformemos a Nemo de perro real en compañero virtual.

  • Percepción: Construimos un sistema que convierte el mundo 3D del juego en lenguaje natural en tiempo real, para que Nemo pueda «percibir» el mundo que le rodea en cada momento.
  • Memoria, personalidad, intención: almacenados e interpretados digitalmente (como archivos vectoriales), y evolucionan continuamente a través de nuevas experiencias, como en la vida real.
  • Entrada del usuario: Hemos añadido reconocimiento de voz para los comandos de voz de los jugadores. Pero estos también podrían ser fácilmente entradas de control o de cualquier otra forma.

Incluimos a continuación una demostración del prototipo.

Para hacer posible el escenario mencionado, aplicamos una primera capa de un gran modelo de lenguaje para traducir «percepción a intención» tomando entradas a través de la percepción, la memoria, las órdenes del usuario y otras pistas. En el caso de Nemo, el resultado sería algo parecido a «Oh no, mi dueño está en peligro. Tengo que proteger a mi dueño».

Pero esta intención todavía no es una acción del juego. Para conseguirlo, necesitamos introducir una segunda capa de LLM para traducir «intención a acción»: convertir la intención en comandos de juego ejecutables en tiempo real. Esta segunda capa es especialmente difícil porque tiene que entender la gama de acciones ejecutables en el contexto de sus intenciones; cualquier comando incorrecto podría colapsar el juego. Así que aquí también añadimos una tercera capa de sistema de IA para autocorregir cualquier fallo en la lógica y los cambios de estado del juego en tiempo real.

Por último, añadimos un sistema de «aprendizaje por asociación en tiempo real» que memoriza las observaciones y los resultados, de modo que cada acción influye en parte de la memoria a largo plazo de Nemo y afecta al resultado de futuras decisiones. Creemos que esta capacidad de aprendizaje continuo será una parte fundamental de las futuras simulaciones de vida.

Una nota más: construimos a Nemo separado del mundo. Nemo percibe, interpreta y aprende del mundo que le rodea en tiempo real, igual que nosotros como jugadores. Esto es distinto del enfoque tradicional de los PNJ, que se construyen como «parte del mundo». La arquitectura de Nemo lo «libera» de su entorno y lo abstrae para que pueda viajar con los jugadores a través de nuevas experiencias, lo que abre la puerta a un sinfín de aventuras creadas por los jugadores y por los propios jugadores en el futuro.

Implicaciones y futuro

La simulación de la vida y el compañerismo dentro de los juegos tiene importantes implicaciones. Desde el punto de vista comercial, ha dado lugar a algunas de las franquicias más duraderas y rentables, como Los Sims. Para los jugadores, estos compañeros tienen la capacidad de profundizar en el juego. Más allá del juego, estas actividades también simbolizan una aproximación más profunda a las relaciones y experiencias humanas.

Para que quede claro, aún quedan muchos retos y elementos por resolver, y muchas piezas de rompecabezas por construir. Al mismo tiempo, el ritmo de las innovaciones técnicas ha sido impresionante de ver: a las pocas semanas del modelo fundacional de código abierto de Meta, los investigadores han entrenado modelos ligeros y específicos para aplicaciones que rinden al más alto nivel.

Los modelos y la tecnología de vanguardia son sólo una parte de la respuesta. Para crear experiencias realmente emergentes y envolventes, los creadores de juegos deben combinar una tecnología innovadora con un arte profundo. En Próxima nos entusiasma la idea de ampliar esas fronteras para construir la próxima generación de experiencias interactivas. Aún estamos en las primeras etapas de este viaje, y hay mucho más que queremos construir. Creemos que es mejor aprender juntos que solos. Así que si usted también está investigando o construyendo en este ámbito, nos encantaría saber de usted. Si es así, póngase en contacto con nosotros.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo