2023-11-10 15:56:45
¿Puede el GPT-4 Vision de OpenAI mejorar la conducción autónoma? Investigadores chinos han puesto en marcha el modelo de lenguaje de visión, por así decirlo.
Si empresas como Nvidia se salen con la suya, los modelos de lenguaje de visión como el GPT-4 Vision (GPT-4V) de OpenAI podrían convertirse en un elemento clave para la visión por ordenador en aplicaciones industriales, robótica y conducción autónoma en el futuro. En un nuevo estudio, un equipo del Laboratorio de Inteligencia Artificial de Shanghai, GigaAI, la Universidad Normal de China Oriental, la Universidad China de Hong Kong y WeRide.ai probaron GPT-4V en escenarios de conducción autónoma.
A diferencia del modelo puramente lingüístico GPT-4, GPT-4V tiene grandes capacidades de reconocimiento de imágenes y puede, por ejemplo, describir contenidos de imágenes y proporcionarles contexto. El equipo probó GPT-4V en una serie de tareas, desde el simple reconocimiento de escenas hasta el análisis causal complejo y la toma de decisiones, en diversas condiciones.
GPT-4 Vision supera a los sistemas actuales en algunas aplicaciones
Según el equipo, los resultados muestran que GPT-4V tiene un rendimiento parcialmente superior al de los sistemas autónomos actuales en comprensión de escenas y análisis de casos de esquina. El sistema también ha demostrado su capacidad para manejar escenarios fuera de distribución, reconocer intenciones y tomar decisiones informadas en situaciones de conducción reales.
Al mismo tiempo, el modelo muestra debilidades en áreas especialmente relevantes para la conducción autónoma, sobre todo la percepción espacial. Por ejemplo, GPT-4V muestra malos resultados en la distinción de direcciones y no reconoce todos los semáforos.
¿Tomaría GPT-4 Vision la decisión correcta en la carretera?
En concreto, se probaron las capacidades del modelo en varios aspectos de la conducción autónoma. Por ejemplo, en el ámbito de la comprensión de escenas, GPT-4V fue capaz de reconocer las condiciones meteorológicas y de iluminación, identificar semáforos y señales de tráfico en distintos países y estimar las posiciones y acciones de otros usuarios de la carretera en fotos tomadas por distintos tipos de cámaras.
GPT-4V también era capaz de tratar casos límite, como la imagen de un avión realizando un aterrizaje de emergencia en una carretera o una obra compleja, y de comprender y analizar imágenes panorámicas y secuenciales. También fue capaz de vincular imágenes de carretera con imágenes de un sistema de navegación.
En una prueba final, el equipo encomendó al GPT-4V la tarea de actuar como un conductor y tomar decisiones basadas en el entorno en situaciones reales de conducción. El modelo se alimentó fotograma a fotograma con vídeos de conducción, velocidades clave del vehículo y otra información relevante, y tuvo que realizar las acciones requeridas y justificar sus decisiones. El sistema completó esta tarea, aunque con algunos errores.
GPT-4 Vision es prometedor, pero presenta puntos débiles peligrosos
El equipo ve un gran potencial para que sistemas como GPT-4V superen a los actuales sistemas de conducción autónoma en cuanto a comprensión de escenas, detección de intenciones y toma de decisiones. Sin embargo, las limitaciones en la percepción espacial y los errores en el reconocimiento de los semáforos hacen que la GPT-4V por sí sola no sea adecuada actualmente en un escenario de este tipo.
Es necesario seguir investigando para aumentar la robustez y aplicabilidad de GPT-4V y otros modelos de visión en diferentes situaciones y condiciones de conducción.
Más información y todos los datos en GitHub.