
2023-08-28 07:56:07
BLIVA es un modelo lingüístico de visión que destaca en la lectura de texto en imágenes, lo que lo hace útil en escenarios y aplicaciones del mundo real en muchas industrias.
Investigadores de la Universidad de California en San Diego han desarrollado BLIVA, un modelo de lenguaje de visión diseñado para manejar mejor las imágenes que contienen texto. Los modelos de lenguaje de visión (VLM) amplían los grandes modelos de lenguaje (LLM) incorporando capacidades de comprensión visual para responder a preguntas sobre imágenes.
Estos modelos multimodales han logrado avances impresionantes en pruebas de respuesta a preguntas visuales abiertas. Un ejemplo es el GPT-4 de OpenAI, que en su forma multimodal puede discutir el contenido de una imagen cuando se lo pide un usuario, aunque esta capacidad sólo está disponible actualmente en la aplicación «Be my Eyes».
Sin embargo, una limitación importante de los sistemas actuales es la capacidad de manejar imágenes con texto, que son comunes en escenarios del mundo real.
BLIVA combina InstructBLIP y LLaVA
Para abordar este problema, el equipo desarrolló BLIVA, que significa «BLIP con asistente visual». BLIVA incorpora dos tipos complementarios de incrustaciones visuales, a saber, incrustaciones de consultas aprendidas extraídas por un módulo Q-former para centrarse en regiones de imágenes relevantes para la entrada textual, de forma similar a Salesforce InstructBLIP e incrustaciones de parches codificados extraídos directamente de los parches de píxeles en bruto de la imagen completa, inspirados en Microsofts LLaVA (Asistente grande de lenguaje y visión).
Según los investigadores, este doble enfoque permite a BLIVA utilizar tanto incrustaciones refinadas basadas en consultas y adaptadas al texto como parches codificados más ricos que capturan más detalles visuales.
BLIVA se preentrena con aproximadamente 550.000 pares de imagen y título, y se ajusta con 150.000 ejemplos visuales de pregunta-respuesta, manteniendo congelados el codificador visual y el modelo lingüístico.
El equipo demuestra que BLIVA mejora significativamente el tratamiento de imágenes ricas en texto en conjuntos de datos como OCR-VQA, TextVQA y ST-VQA. Por ejemplo, obtuvo un 65,38% de precisión en OCR-VQA, frente al 47,62% de InstructBLIP. El nuevo sistema también superó a InstructBLIP en siete de las ocho pruebas VQA generales no textuales. El equipo cree que esto demuestra las ventajas de los enfoques de incrustación múltiple para la comprensión visual en general.

Los investigadores también evaluaron BLIVA en un nuevo conjunto de datos de miniaturas de vídeos de YouTube con preguntas asociadas, disponible en Hugging Face. BLIVA alcanzó una precisión del 92%, significativamente superior a la de métodos anteriores. Según el equipo, la capacidad de BLIVA para leer texto en imágenes, como señales de tráfico o envases de alimentos, podría permitir aplicaciones prácticas en muchos sectores. Recientemente, investigadores de Microsoft demostraron un asistente multimodal de IA para biomedicina basado en LLaVA, denominado LLaVA-med.
Más información y el código en BLIVA Github hay una demo disponible en Hugging Face.