2024-04-27 12:39:36
Los avances en inteligencia artificial han llevado a la convergencia de los modelos de procesamiento de lenguaje natural (PLN) y visión por computadora, dando lugar a los modelos de lenguaje de visión (VLM). Estos modelos combinan capacidades lingüísticas y visuales para lograr un entendimiento y razonamiento multimodal. Sin embargo, aún existe una brecha significativa de rendimiento entre los VLM y los grandes modelos de lenguaje (LLM) más avanzados, como GPT-4.
Mini-Gemini es un marco de trabajo innovador que busca explotar el potencial de los VLM para reducir esta brecha. Mediante tres enfoques principales: generación guiada por VLM, datos de alta calidad y fichas visuales de alta resolución, Mini-Gemini aspira a mejorar el rendimiento de los VLM en tareas de comprensión de imágenes, generación y razonamiento.
Ventajas y Aplicaciones
El marco de trabajo Mini-Gemini ofrece varias ventajas y aplicaciones prometedoras:
- Mejora el Rendimiento de los VLM: Al explotar las capacidades de los VLM desde múltiples ángulos, Mini-Gemini busca reducir la brecha de rendimiento entre los VLM y los LLM más avanzados.
- Generación Multimodal: Permite la generación simultánea de texto e imágenes de alta calidad, ampliando las posibilidades de aplicaciones multimodales.
- Eficiencia Computacional: Al mantener un recuento de fichas visuales razonable y utilizar técnicas eficientes, Mini-Gemini busca un equilibrio entre el rendimiento y la viabilidad computacional.
- Aplicaciones Diversas: El marco de trabajo puede aplicarse en áreas como asistentes virtuales multimodales, generación de contenido multimedia, análisis de imágenes y más.
Asimismo, la convergencia de modelos para procesar lenguaje natural y visión por computadora ha dado lugar a los Modelos de Lenguaje de Visión. Estos modelos combinan capacidades lingüísticas y visuales para lograr una comprensión y razonamiento multimodal. La integración de estos modelos visuales y lingüísticos ha sido crucial para avanzar en tareas que requieren procesar lenguaje y comprender imágenes.
La aparición de modelos revolucionarios como CLIP ha acercado aún más las tareas visuales y los modelos de lenguaje, demostrando la viabilidad y utilidad de las aplicaciones multimodales. Marcos más recientes como LLaMA y BLIP aprovechan datos personalizados para idear estrategias eficientes que muestran las potentes capacidades del modelo. Además, combinar grandes modelos de lenguaje con salidas de imagen es el enfoque de la investigación multimodal reciente, con métodos recientes capaces de producir salidas de imagen y textos entrelazados sin generarlos directamente, utilizando la recuperación de imágenes.
Arquitectura y Metodología
El marco de trabajo Mini-Gemini se basa en tres componentes clave:
- Codificadores de Visión Duales: Utiliza dos codificadores para generar incrustaciones visuales de baja resolución y candidatos de alta resolución. El primero emplea un Transformer Visual preentrenado con CLIP para codificar las incrustaciones de baja resolución, mientras que el segundo adopta un codificador basado en Redes Neuronales Convolucionales (CNN) para procesar eficientemente las imágenes de alta resolución.
- Minería de Información de Parches: Implementa una técnica de minería de información a nivel de parche entre las consultas visuales de baja resolución y las regiones de alta resolución. Esto permite refinar y sintetizar pistas visuales detalladas sin aumentar el número total de fichas visuales, manteniendo un equilibrio entre el detalle y la eficiencia computacional.
- Generación de Texto e Imagen: El marco de trabajo Mini-Gemini concatena las fichas visuales mejoradas y los tokens de texto como entrada para los grandes modelos de lenguaje (LLM), permitiendo la generación autorregresiva de texto, imágenes o ambos simultáneamente. Además, utiliza un conjunto de datos de instrucciones de alta calidad para mejorar la generación de imágenes en modelos de difusión latente.
Los grandes modelos de lenguaje han mejorado con el tiempo y ahora pueden procesar imágenes y videos, además de texto. Sin embargo, aún hay una brecha entre la capacidad de estos modelos para comprender imágenes y videos, y los modelos especializados en esa tarea. Los investigadores buscan cerrar esa brecha, y una forma es aumentar la resolución de las imágenes y el número de tokens visuales que los modelos pueden procesar. Esto mejora la comprensión visual, pero también aumenta los requisitos computacionales y los costos.
El marco de trabajo Mini-Gemini intenta abordar este problema desde tres ángulos: mejorar las aplicaciones guiadas por modelos de lenguaje y visión, usar datos de alta calidad, y generar tokens visuales de alta resolución de manera eficiente. Mini-Gemini combina conjuntos de datos públicos de calidad, modelos generativos avanzados y grandes modelos de lenguaje. Esto permite explorar el potencial de los modelos de lenguaje y visión, y lograr avances significativos con recursos limitados.
Para mejorar la calidad de los datos, Mini-Gemini recopila y produce más datos basados en recursos públicos, incluyendo instrucciones orientadas a tareas, datos relacionados con la generación y respuestas de alta resolución. La mayor cantidad y mejor calidad de los datos mejora el rendimiento general y las capacidades del modelo. Además, Mini-Gemini admite la generación simultánea de texto e imágenes al integrar el modelo de lenguaje y visión con modelos generativos avanzados.
Mini-Gemini puede procesar entradas de texto o imagen individualmente o en combinación. Para procesar imágenes, utiliza interpolación bilineal para generar una imagen de baja resolución a partir de su versión de alta resolución correspondiente.
El marco de trabajo Mini-Gemini es capaz de procesar tanto texto como imágenes como entrada y salida. Introduce un flujo de trabajo eficiente para mejorar los tokens visuales de las imágenes de entrada. Utiliza un sistema de doble codificador: uno para imágenes de alta resolución y otro para tokens visuales de baja calidad. Durante la inferencia, el codificador de baja resolución genera consultas visuales, mientras que el de alta resolución proporciona claves y valores de referencia mediante un mecanismo de atención.
Luego, el marco de trabajo procesa estas imágenes y las codifica en una incrustación visual multi-rejilla en dos flujos de imagen paralelos. Más específicamente, el marco de trabajo Mini-Gemini mantiene el flujo de trabajo tradicional para flujos de baja resolución y emplea un Transformer Visual preentrenado con CLIP para codificar las incrustaciones visuales, facilitando que el modelo preserve la relación a largo plazo entre parches visuales para interacciones posteriores en grandes modelos de lenguaje. Para los flujos de alta resolución, el marco de trabajo Mini-Gemini adopta el codificador basado en CNN o Redes Neuronales Convolucionales para un procesamiento de imagen adaptativo y eficiente de alta resolución.
Minería de Información de Parches
Con los codificadores de visión dual que generan las incrustaciones de LR y las características de HR, el marco de trabajo Mini-Gemini propone implementar la minería de información de parches con el objetivo de ampliar el potencial de los modelos de lenguaje de visión con fichas visuales mejoradas. Con el fin de mantener el número de fichas visuales para la eficiencia en modelos de lenguaje grandes, el marco de trabajo Mini-Gemini toma las incrustaciones visuales de baja resolución como la consulta y tiene como objetivo recuperar pistas visuales relevantes de los candidatos de características de alta resolución, tomando el mapa de características de HR como la clave y el valor.
Como se muestra en la imagen, la fórmula combina un proceso de mejorar y resumir pistas visuales que genera fichas visuales avanzadas para un posterior procesamiento por un modelo de lenguaje grande. Este proceso asegura que el marco pueda restringir la extracción de características para cada consulta a su región correspondiente en el mapa de características de alta resolución con el conteo de características a nivel de píxel, resultando en mayor eficiencia. Gracias a este diseño, el marco Mini-Gemini puede extraer detalles de características de alta resolución sin aumentar el recuento de fichas visuales, manteniendo un equilibrio entre la viabilidad computacional y el detalle rico.
Generación de Texto e Imagen
El marco Mini-Gemini une las fichas visuales y los tokens de texto de entrada como entrada a los modelos de lenguaje grandes para la generación autorregresiva. A diferencia de los modelos tradicionales, Mini-Gemini admite la generación de solo texto o texto-imagen como entrada y salida, es decir, cualquier inferencia. Y es gracias a su gran capacidad de comprensión de imágenes y texto que Mini-Gemini puede generar imágenes de alta calidad. A diferencia de trabajos recientes enfocados en la brecha entre las incrustaciones de texto de los modelos de generación y los modelos de lenguaje grandes, Mini-Gemini intenta optimizar la brecha en el dominio de las indicaciones de lenguaje al traducir las instrucciones de usuario en indicaciones de alta calidad que producen imágenes contextualmente relevantes en modelos de difusión. Además, para un mejor entendimiento del ajuste fino de las instrucciones y alineación multimodal, Mini-Gemini recopila muestras de conjuntos de datos de alta calidad públicamente disponibles, y utiliza el marco turbo GPT-4 para construir un conjunto de datos de 13K instrucciones para respaldar la generación de imágenes.