El último modelo de IA RT-2 de Google Deepmind «puede hablar robot»

14 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-07-30 12:14:59

Google Deepmind presenta RT-2, un nuevo modelo para el control de robots que aprende de los datos del robot y de los datos generales de la web, y utiliza estas dos fuentes de conocimiento para generar instrucciones precisas para el robot.

Desde la aparición de los grandes modelos lingüísticos, la robótica ha intentado aprovechar las capacidades de los LLM entrenados en datos web. Su conocimiento general combinado con habilidades de razonamiento es valioso para el control diario de robots. Por ejemplo, pueden utilizar el razonamiento de cadena de pensamiento común a los LLMs para navegar más eficientemente en entornos del mundo real.

RT-2 combina datos robóticos, lenguaje y visión para la acción robótica multipaso y multimodal.

La nueva investigación se basa en Robotics Transformer 1 (RT-1), presentado a finales del año pasado, el primer «modelo de robot grande» entrenado con datos de demostración robótica recogidos de 13 robots a lo largo de un periodo de 17 meses en un entorno de oficina-cocina.

En comparación, el RT-2 muestra una mayor capacidad de generalización y comprensión semántica y visual más allá de los datos del robot vistos durante el entrenamiento. El equipo de investigación utilizó modelos de lenguaje visual (VLM) basados en PaLM-E y PaLI-X. Como resultado, RT-2 puede derivar órdenes a partir de una combinación de entradas visuales y textuales, mientras que SayCan, por ejemplo, se basa únicamente en el lenguaje.

Para RT-2, Google Deepmind combina RT-1 con un modelo de visión-lenguaje entrenado con datos web. | Vídeo: Deepmind

Esta robustez se consigue mediante un enfoque en tres pasos: En primer lugar, RT-2 aprende de los datos de la web, que proporcionan al modelo los fundamentos del lenguaje y la lógica cotidiana.

En segundo lugar, aprende de datos de robots, que proporcionan al modelo una comprensión práctica de cómo debe interactuar con el mundo.

Por último, combinando estos dos conjuntos de datos, RT-2 puede comprender y generar órdenes precisas para el control del robot basándose en escenarios del mundo real.

Con RT-2, los robots son capaces de aprender más como nosotros: transfiriendo los conceptos aprendidos a situaciones nuevas. El RT-2 no sólo demuestra que los avances en inteligencia artificial se están extendiendo rápidamente a la robótica, sino que también es muy prometedor para los robots de uso general.
Google Deepmind

Por ejemplo, cuando a los sistemas antiguos se les pide que eliminen basura, deben aprender explícitamente qué es la basura, cómo reconocerla y cómo recogerla y eliminarla. En cambio, RT-2 puede basarse en su amplio conocimiento de la Web para identificar y eliminar la basura, e incluso realizar acciones para las que no ha sido explícitamente entrenado. Esto incluye conceptos abstractos como entender cuándo un objeto antes útil (como una cáscara de plátano o una bolsa de patatas fritas) se convierte en basura.

RT-2 es mejor en tareas desconocidas

El equipo de investigación también demuestra que RT-2 es capaz de razonar en varios pasos utilizando la técnica de la «cadena de pensamiento». Por ejemplo, el robot puede razonar por qué una piedra es mejor martillo improvisado que un trozo de papel, o por qué una persona cansada puede necesitar una bebida energética, y tomar mejores decisiones.

Al transferir los conocimientos adquiridos a nuevos escenarios, el RT-2 mejora la adaptabilidad de los robots a distintos entornos. En más de 6.000 pruebas con robots, RT-2 demostró el mismo rendimiento que su predecesor RT-1 en tareas entrenadas y realizó grandes avances en tareas no entrenadas, donde la tasa de éxito casi se duplicó, pasando del 32% al 62%.

El ultimo modelo de IA RT 2 de Google Deepmind puede 2023-07-30 12:14:59 — Imagen: Google Deepmind

El último modelo de IA RT-2 de Google Deepmind «puede hablar robot»

RT-2 combina datos robóticos, lenguaje y visión para la acción robótica multipaso y multimodal.

RT-2 es mejor en tareas desconocidas

DreamGenerator es una cámara AI con avisos integrados de Difusión Estable

Texto-a-Video está mejorando rápidamente, aquí tienes algunos ejemplos creados con Runway Gen-2

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta