2023-08-26
El sistema AVIS de Google intenta responder a preguntas sobre imágenes cuya información no está fácilmente disponible, como la fecha de fundación de una aerolínea o el año de fabricación de un coche.
Los recientes avances en los modelos de lenguaje de gran tamaño (LLM) han permitido desarrollar capacidades multimodales para tareas como el subtitulado de imágenes y la respuesta a preguntas visuales. Sin embargo, estos modelos de lenguaje visual (VLM) siguen teniendo dificultades con el razonamiento visual complejo del mundo real que requiere conocimientos externos, lo que se denomina «búsqueda de información visual».
Para hacer frente a esta limitación, los investigadores de Google han introducido un nuevo método denominado AVIS, que integra Googles PALM con herramientas de visión por computador, búsqueda web y búsqueda de imágenes. Con estas herramientas, AVIS utiliza un modelo de lenguaje en un marco dinámico para buscar información visual de forma autónoma.
Googles AVIS aprende de los humanos
A diferencia de los sistemas anteriores, que combinan grandes modelos lingüísticos con herramientas en un proceso rígido de dos pasos, AVIS los utiliza de forma más flexible para planificar y razonar. Esto permite adaptar las acciones en función de la retroalimentación en tiempo real.
AVIS tiene tres componentes principales:
- A planificador que determina la siguiente acción (llamada a la API y consulta) utilizando el LLM
- A memoria de trabajo retener información de ejecuciones anteriores de la API
- A razonador que procesa las salidas de la API utilizando el LLM para extraer información útil.
El planificador y el razonador se utilizan de forma iterativa, con el planificador decidiendo la siguiente herramienta y consulta basándose en el estado actualizado del razonador. Esto continúa hasta que el razonador determina que hay suficiente información para proporcionar la respuesta final.
También se integran tres tipos de herramientas:
- Herramientas de visión por ordenador para extraer información visual de imágenes
- A herramienta de búsqueda en la web para recuperar conocimientos y hechos del mundo abierto
- Un herramienta de búsqueda de imágenes para leer información relevante a partir de metadatos asociados a imágenes visualmente similares
Para averiguar la mejor manera de explotar estas capacidades, los investigadores realizaron un estudio de usuarios que captó la toma de decisiones humanas mediante herramientas de razonamiento visual. El estudio reveló secuencias comunes de acciones que se utilizaron para construir un gráfico de transición que guía a AVIS en su comportamiento.
AVIS alcanza el estado de la técnica sin ajuste fino
En el conjunto de datos Infoseek, AVIS alcanzó una precisión del 50,7%, superando significativamente a los modelos de lenguaje visual con ajuste fino como OFA y PaLI. En el conjunto de datos OK-VQA, AVIS alcanzó una precisión del 60,2% con pocos ejemplos, superando la mayoría de los trabajos anteriores y acercándose a modelos ajustados, según Google.
En el futuro, el equipo quiere explorar su marco en otras tareas de razonamiento y ver si estas capacidades pueden ser realizadas por modelos lingüísticos más ligeros, ya que el modelo PALM utilizado es computacionalmente intensivo con 540.000 millones de parámetros.