¿Qué es el RT-2? El modelo vision-lenguaje-acción de Google DeepMind para robótica

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-08-16 08:02:57

Puntos destacados:

🤖 RT-2 es un modelo de visión-lenguaje-acción (VLA) que acerca el futuro de los robots útiles.
🧠 RT-2 utiliza conocimiento transferido de datos web para dirigir las acciones de los robots.
🌟 RT-2 permite a los robots aprender y adaptarse más rápidamente a situaciones y entornos novedosos.

Durante décadas, cuando las personas han imaginado el futuro lejano, casi siempre han incluido un papel protagonista para los robots. Se ha considerado a los robots como confiables, serviciales e incluso encantadores. Sin embargo, a lo largo de esas mismas décadas, la tecnología ha permanecido elusiva, atrapada en el reino imaginado de la ciencia ficción.

Hoy, presentamos un nuevo avance en robótica que nos acerca a un futuro con robots útiles. Robotics Transformer 2, o RT-2, es un modelo de visión-lenguaje-acción (VLA) único en su tipo. Un modelo basado en Transformers entrenado en texto e imágenes de la web, RT-2 puede generar directamente acciones robóticas. Así como los modelos de lenguaje se entrenan en texto de la web para aprender ideas y conceptos generales, RT-2 transfiere conocimiento de los datos web para influir en el comportamiento del robot.

En otras palabras, RT-2 puede «hablar robot».

Los desafíos del aprendizaje de los robots en el mundo real

La búsqueda de robots útiles siempre ha sido un esfuerzo hercúleo, porque un robot capaz de realizar tareas generales en el mundo necesita poder manejar tareas complejas y abstractas en entornos altamente variables, especialmente aquellos que nunca ha visto antes.

A diferencia de los chatbots, los robots necesitan una «base» en el mundo real y en sus habilidades. Su entrenamiento no se trata solo de aprender todo lo que hay que saber sobre una manzana: cómo crece, sus propiedades físicas o incluso que supuestamente cayó en la cabeza de Sir Isaac Newton. Un robot necesita poder reconocer una manzana en contexto, distinguirla de una bola roja, comprender cómo se ve y, lo más importante, saber cómo recogerla.

Históricamente, eso ha requerido entrenar a los robots en miles de millones de puntos de datos, de primera mano, en cada objeto, entorno, tarea y situación en el mundo físico, una perspectiva tan consumidora de tiempo y costosa que resulta poco práctica para los innovadores. El aprendizaje es un desafío, y aún más para los robots.

Un nuevo enfoque con RT-2

Trabajos recientes han mejorado la capacidad de razonamiento de los robots, incluso permitiéndoles utilizar prompting de cadena de pensamiento, una forma de desglosar problemas de varios pasos. La introducción de modelos de visión, como PaLM-E, ayudó a los robots a comprender mejor su entorno. Y RT-1 demostró que los Transformers, conocidos por su capacidad para generalizar información en sistemas, incluso podrían ayudar a que diferentes tipos de robots aprendan entre sí.

Pero hasta ahora, los robots funcionaban con complejas pilas de sistemas, donde los sistemas de razonamiento de alto nivel y manipulación de bajo nivel jugaban un juego imperfecto de teléfono para operar el robot. Imagina pensar en lo que quieres hacer y luego tener que decirle esas acciones al resto de tu cuerpo para que se mueva. RT-2 elimina esa complejidad y permite que un solo modelo no solo realice el razonamiento complejo que se ve en los modelos fundamentales, sino que también genere acciones de robot. Lo más importante, muestra que con una cantidad pequeña de datos de entrenamiento de robot, el sistema puede transferir conceptos incorporados en sus datos de entrenamiento de lenguaje y visión para dirigir las acciones del robot, incluso para tareas para las que nunca ha sido entrenado.

Por ejemplo, si quisieras que los sistemas anteriores fueran capaces de tirar un trozo de basura, tendrías que entrenarlos explícitamente para que puedan identificar la basura, así como recogerla y tirarla. Debido a que RT-2 es capaz de transferir conocimiento de un gran corpus de datos web, ya tiene una idea de qué es la basura y puede identificarla sin entrenamiento explícito. Incluso tiene una idea de cómo tirar la basura, aunque nunca se le haya entrenado para realizar esa acción. Y piensa en la naturaleza abstracta de la basura: lo que era una bolsa de papas fritas o una cáscara de plátano se convierte en basura después de que los comes. RT-2 es capaz de entender eso a partir de sus datos de entrenamiento de visión y lenguaje, y hacer el trabajo.

Un futuro más brillante para la robótica

La capacidad de RT-2 para transferir información a acciones muestra promesa para que los robots se adapten más rápidamente a situaciones y entornos novedosos. Al probar modelos RT-2 en más de 6,000 pruebas robóticas, el equipo encontró que RT-2 funcionaba tan bien como nuestro modelo anterior, RT-1, en tareas de sus datos de entrenamiento, o «tareas vistas». E incluso duplicó su rendimiento en escenarios novedosos e invisibles hasta alcanzar el 62% en comparación con el 32% de RT-1.

En otras palabras, con RT-2, los robots pueden aprender más como nosotros, transfiriendo conceptos aprendidos a nuevas situaciones.

No solo muestra cómo los avances en IA están cascada rápidamente hacia la robótica, sino que también muestra un enorme potencial para robots de propósito más general. Si bien aún queda mucho trabajo por hacer para permitir robots útiles en entornos centrados en los humanos, RT-2 nos muestra un futuro emocionante para la robótica al alcance de la mano.

Lee la historia completa en el Blog de Google DeepMind.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo