El agente de IA Dynalang podría cambiar nuestra forma de hablar con los robots

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-08-14 14:32:21

Dynalang es un agente de IA que entiende el lenguaje y su entorno haciendo predicciones sobre el futuro en entornos con un modelo del mundo multimodal.

Uno de los principales retos de la investigación en IA es conseguir que los agentes de IA, como los robots, se comuniquen de forma natural con los humanos. Los agentes actuales, como PaLM-SayCan de Google, entienden órdenes sencillas como «coge el bloque azul». Pero tienen dificultades con situaciones lingüísticas más complejas, como la transferencia de conocimientos («el botón de arriba a la izquierda apaga la tele»), la información situacional («nos estamos quedando sin leche») o la coordinación («ya se ha aspirado el salón»).

Por ejemplo, cuando un agente escucha «he guardado los cuencos», debe responder de forma diferente en función de la tarea: si está lavando los platos, debe pasar al siguiente paso de limpieza; si está sirviendo la cena, debe ir a por los cuencos.

En un nuevo artículo, investigadores de la Universidad de Berkeley plantean la hipótesis de que el lenguaje puede ayudar a los agentes de IA a anticipar el futuro: qué verán, cómo reaccionará el mundo y qué situaciones son importantes. Con el entrenamiento adecuado, esto podría crear un agente que aprendiera un modelo de su entorno a través del lenguaje y respondiera mejor en esas situaciones.

Dynalang se basa en la predicción de tokens e imágenes en DreamerV3 de Deepmind

El equipo está desarrollando Dynalang, un agente de IA que aprende un modelo del mundo a partir de entradas visuales y textuales. Se basa en DreamerV3 de Google Deepmind, condensa las entradas multimodales en una representación común y está entrenado para predecir representaciones futuras basándose en sus acciones.

El enfoque es similar al entrenamiento de grandes modelos lingüísticos que aprenden a predecir el siguiente token de una frase. Lo que hace único a Dynalang es que el agente aprende prediciendo texto futuro, así como observaciones -es decir, imágenes- y recompensas. Esto también lo diferencia de otros enfoques de aprendizaje por refuerzo, que normalmente sólo predicen acciones óptimas.

Según el equipo, Dynalang extrae información relevante del texto y aprende asociaciones multimodales. Por ejemplo, si el agente lee: «El libro está en el salón», y más tarde ve el libro allí, el agente correlacionará el lenguaje y los elementos visuales a través de su impacto en sus predicciones.

El equipo evaluó Dynalang en varios entornos interactivos con diferentes contextos lingüísticos. Entre ellos, un entorno doméstico simulado, en el que el agente recibe pistas sobre futuras observaciones, dinámicas y correcciones para realizar tareas de limpieza de forma más eficiente; un entorno de juego; y escaneos realistas de casas en 3D para tareas de navegación.

Dynalang también puede aprender de datos web

Dynalang ha aprendido a utilizar el lenguaje y la predicción de imágenes en todas las tareas para mejorar su rendimiento, superando a menudo a otras arquitecturas de IA especializadas. El agente también puede generar texto y leer manuales para aprender nuevos juegos. El equipo también demuestra que la arquitectura permite entrenar a Dynalang con datos offline sin acciones ni recompensas, es decir, datos de texto y vídeo que no se recogen activamente mientras explora un entorno. En una prueba, los investigadores entrenaron a Dynalang con un pequeño conjunto de datos de historias cortas, lo que mejoró el rendimiento del agente.

Vídeo: Lin et al.

«La capacidad de preentrenamiento en vídeo y texto sin acciones ni recompensas sugiere que Dynalang podría escalarse a grandes conjuntos de datos web, allanando entonces el camino hacia un agente multimodal autoperfeccionado que interactúe con humanos en el mundo.»

El equipo cita como limitaciones la arquitectura utilizada, que no es óptima para determinados entornos de largo horizonte. Además, la calidad del texto producido está aún lejos de la de los grandes modelos lingüísticos, pero podría acercarse a ella en el futuro.

Más información y el código están disponibles en Página del proyecto Dynalang.

Deja una opinión

Deje una respuesta

🤖 AI MAFIA
Logo