Lingo-1 de Wayve lleva el razonamiento humano a los coches aut贸nomos

A帽adir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuaci贸n0

Wayve, una startup brit谩nica especializada en conducci贸n aut贸noma basada en IA, presenta su nuevo modelo: Lingo-1, que combina la visi贸n artificial con la l贸gica basada en texto.

Los humanos tenemos que tomar decisiones en la carretera todo el tiempo: 驴Cu谩ndo pisamos el acelerador, cu谩ndo lo levantamos, cu谩ndo adelantamos o cu谩ndo nos contenemos?

Los coches aut贸nomos tienen que tomar las mismas decisiones. Pero, a diferencia de los humanos, no pueden justificar sus decisiones… todav铆a no. Lingo-1 pretende cambiar esta situaci贸n.

Lingo-1 combina modelos ling眉铆sticos con modelos visuales

Los sistemas t铆picos de conducci贸n aut贸noma se basan en la percepci贸n visual para tomar decisiones. El nuevo modelo de lenguaje visual Lingo-1 de Wayve inserta l贸gica textual entre la percepci贸n visual y la acci贸n, lo que permite al coche explicar sus acciones.

Para una decisi贸n de conducci贸n y para la situaci贸n general del tr谩fico, el coche proporciona continuamente declaraciones textuales que describen la situaci贸n actual y justifican las decisiones, de forma similar a un conductor que piensa en voz alta o a un profesor de autoescuela que quiere apoyar la atenci贸n del alumno.

V铆deo: Wayve

Esta l贸gica textual podr铆a aumentar la sensaci贸n de seguridad en los coches al hacer que sus decisiones parezcan menos una 芦caja negra禄. Tambi茅n podr铆a contribuir a la seguridad de los veh铆culos aut贸nomos al permitir al sistema razonar textualmente sobre escenarios de tr谩fico no incluidos en los datos de entrenamiento.

Adem谩s, el comportamiento de Lingo-1 puede ajustarse de forma flexible mediante sencillas instrucciones de texto, y puede entrenarse con ejemplos adicionales escritos por humanos sin necesidad de una extensa y costosa recopilaci贸n de datos visuales.

芦El razonamiento causal es vital en la conducci贸n aut贸noma, ya que permite al sistema comprender las relaciones entre elementos y acciones dentro de una escena禄, escribe Wayve.

V铆deo: Wayve

En lugar de recopilar miles de ejemplos visuales de un coche frenando ante un peat贸n, bastar铆a con unos pocos ejemplos de la escena con breves descripciones en texto de c贸mo debe comportarse el coche en la situaci贸n y qu茅 factores hay que tener en cuenta, escribe Wayve.

Los coches aut贸nomos podr铆an beneficiarse del conocimiento general en grandes modelos ling眉铆sticos

El conocimiento general de los grandes modelos ling眉铆sticos tambi茅n podr铆a mejorar los modelos de conducci贸n, especialmente en situaciones hasta ahora desconocidas.

芦Los LLM ya poseen un vasto conocimiento del comportamiento humano a partir de conjuntos de datos a escala de Internet, lo que les hace capaces de comprender conceptos como la identificaci贸n de objetos, las normas de tr谩fico y las maniobras de conducci贸n. Por ejemplo, los modelos ling眉铆sticos saben distinguir entre un 谩rbol, una tienda, una casa, un perro que persigue una pelota y un autob煤s parado delante de un colegio禄, escribe Wayve.

V铆deo: Wayve

Lingo-1 se entren贸 utilizando datos de imagen, voz y acci贸n recogidos de conductores de Wayve mientras circulaban por Londres. Seg煤n Wayve, Lingo-1 alcanza actualmente el 60% de la precisi贸n de los conductores humanos. El sistema ha duplicado con creces su rendimiento desde las pruebas iniciales realizadas en agosto y septiembre gracias a las mejoras introducidas en su arquitectura y en el conjunto de datos de entrenamiento.

Lingo-1 tiene la limitaci贸n de que s贸lo se ha entrenado con datos de Londres y el Reino Unido. Tambi茅n puede generar respuestas incorrectas, un problema com煤n con los LLM, pero Lingo-1 tiene la ventaja de basarse en datos visuales del mundo real, escribe la empresa.

Entre los retos t茅cnicos se encuentran las tan necesarias longitudes de contexto largas para las descripciones de v铆deo en modelos multimodales y la integraci贸n de Lingo-1 en la arquitectura de bucle cerrado directamente en el veh铆culo aut贸nomo.

En junio, Wayve present贸 GAIA-1, un modelo generativo de IA que puede ayudar a aliviar el cuello de botella causado por el suministro limitado de datos de v铆deo para entrenar modelos de IA en diferentes situaciones de tr谩fico. GAIA-1 aprende conceptos de conducci贸n prediciendo los siguientes fotogramas de una secuencia de v铆deo, lo que lo convierte en una valiosa herramienta para entrenar sistemas aut贸nomos que naveguen por escenarios complejos del mundo real.

Deja una opini贸n

Deje una respuesta

馃 AI MAFIA
Logo