2023-10-29 02:41:42
El Futuro de la Robótica: Cómo la Inteligencia Artificial Está Transformando la Experiencia Turística
Este emocionante artículo ha sido elaborado por Matt Klingensmith, Ingeniero Principal de Software, con la colaboración invaluable del equipo del proyecto: Michael McDonald, Radhika Agrawal, Chris Allum y Rosalind Shinkle. En los últimos años, hemos sido testigos de avances vertiginosos en el campo de la inteligencia artificial, en particular en lo que se conoce como «IA Generativa». En este emocionante panorama, nos encontramos con demostraciones de chatbots que escriben como seres humanos, algoritmos capaces de generar imágenes y voces realistas, ahora al alcance de la persona promedio.
Modelos Fundamentales: La Clave del Progreso
Este impresionante progreso se debe en parte al auge de los Modelos Fundamentales (FM), sistemas de inteligencia artificial enormes entrenados con vastos conjuntos de datos. Estos modelos suelen contar con millones o incluso miles de millones de parámetros, y se entrenan a partir de datos recopilados en Internet. Lo más sorprendente es que estos modelos exhiben lo que se conoce como «Comportamiento Emergente», lo que significa que pueden realizar tareas que van más allá de su entrenamiento original. Esto los convierte en una base sólida para desarrollar otros algoritmos.
Como muchos de nosotros, tanto dentro como fuera de la industria tecnológica, nos sentimos asombrados y emocionados por este rápido progreso. Sentimos la necesidad de explorar a fondo cómo funcionan estos modelos y cómo podrían impactar el campo de la robótica. Fue así como nuestro equipo se embarcó en la creación de demostraciones de concepto utilizando estos Modelos Fundamentales en aplicaciones de robótica durante el verano. Una de las demostraciones que más nos interesó fue la posibilidad de utilizar los Modelos Fundamentales para aumentar la autonomía de Spot, permitiéndole tomar decisiones en tiempo real basadas en la salida de estos modelos.
Transformando la Experiencia Turística con IA y Robótica
Los Modelos de Lenguaje Grandes (LLM), como ChatGPT, son esencialmente algoritmos de autocompletado de gran escala y capacidad. Pueden tomar una secuencia de texto y predecir la siguiente parte de ese texto. Nos inspiramos en la sorprendente capacidad de los LLM para interpretar roles, replicar la cultura y los matices humanos, diseñar planes y mantener coherencia a lo largo del tiempo. También tomamos nota de los recientes avances en modelos de Pregunta y Respuesta Visual (VQA), que pueden describir imágenes y responder preguntas simples sobre ellas.
Para poner a prueba estos conceptos, decidimos crear un guía turístico robot utilizando el SDK de Spot. Esta demostración nos ofreció una forma sencilla de explorar estas capacidades. El robot podía caminar, observar objetos en su entorno, utilizar un modelo VQA o etiquetado para describirlos y luego enriquecer esas descripciones utilizando un LLM. Además, el LLM podía responder preguntas de la audiencia del tour y planificar las acciones futuras del robot. En esencia, el LLM actuaba como un actor improvisado: proporcionábamos un guión general y el LLM lo complementaba sobre la marcha.
Nuestra primera tarea fue etiquetar un mapa 3D de nuestro edificio con ubicaciones clave, tales como el balcón, las palancas en el demo_lab, la exposición de robots antiguos en el museo y más. Utilizamos este mapa etiquetado para guiar a Spot, alimentando información a nuestro modelo de lenguaje grande, junto con otros datos de sensores del robot. El resultado era un comando, como ‘decir’, ‘preguntar’, ‘ir_a’ o ‘etiquetar’, que permitía al robot interactuar con los visitantes de manera cautivadora y entretenida.
Esta demostración aprovechaba las fortalezas del LLM: su capacidad para generar detalles plausibles de manera creativa, incluso si no verificaba la exactitud de los hechos. En este caso, la precisión factual no era crucial; lo que buscábamos era una experiencia interactiva y rica en matices. Además, la barrera para el éxito era sorprendentemente baja: el robot simplemente tenía que caminar y hablar sobre las cosas que veía. Y dado que Spot ya disponía de un sólido SDK de autonomía, ya estábamos en camino hacia lograrlo.
Para poner en marcha este emocionante proyecto, tuvimos que configurar algunas integraciones de hardware simples y varios modelos de software que trabajaran en conjunto. Comenzamos por establecer una configuración de hardware que incluía un altavoz Respeaker V2 resistente a las vibraciones y un micrófono de matriz circular con LEDs. Estos se conectaron mediante USB al módulo EAP 2 de Spot, permitiendo que el robot hablara y escuchara a la audiencia.
Spot: Un Robot Turístico Impulsado por IA
El control real del robot se delegaba a una computadora externa, ya sea una PC de escritorio o una computadora portátil, que se comunicaba con Spot a través de su SDK. Implementamos un servicio sencillo de SDK de Spot para gestionar la comunicación de audio con el módulo EAP 2.
En cuanto al software, para dotar a Spot de habilidades conversacionales, utilizamos la API de OpenAI Chat GPT. Inicialmente, trabajamos con gpt-3.5 antes de actualizar a gpt-4 cuando estuvo disponible. Controlar a Chat GPT y lo que «decía» requería una ingeniería cuidadosa de estímulos. Inspirados por un enfoque de Microsoft, configuramos ChatGPT para que pareciera que estaba escribiendo líneas de código en un script de Python. Proporcionamos documentación en inglés al LLM en forma de comentarios, y luego evaluamos la salida del LLM como si fuera código Python. De esta manera, conseguimos que el LLM interactuara con nuestro SDK de autonomía, el mapa de la ubicación del tour y la capacidad de generar frases y hacer preguntas.
Para que el robot «viera» y «oyera», integramos software de VQA (Respuesta Visual a Preguntas) y conversión de voz a texto. Las cámaras de agarre y frontal del robot proporcionaron la información visual necesaria, mientras que los datos del micrófono se procesaron para convertir la voz en texto.
Este emocionante proyecto demostró cómo la inteligencia artificial y la robótica pueden converger para crear experiencias turísticas interactivas y atractivas. Si bien enfrentamos desafíos técnicos, el resultado fue una experiencia única que dejó a los visitantes impresionados.
En resumen, estamos en la cúspide de una nueva era en la que la inteligencia artificial y la robótica se combinan para revolucionar la forma en que experimentamos el mundo. Los Modelos Fundamentales y los Modelos de Lenguaje Grandes son herramientas poderosas que permiten a los robots como Spot llevar a cabo tareas sorprendentes. Este emocionante proyecto es solo un ejemplo de lo que está por venir en la intersección de la tecnología y la creatividad humana. ¡El futuro es prometedor y lleno de posibilidades emocionantes!