2023-07-21 14:00:00
Gracias a los recientes avances tecnológicos, los modelos de lenguaje de gran tamaño (LLM) se han desempeñado notablemente bien en tareas de razonamiento complejas y sofisticadas. Esto se consigue generando pasos de razonamiento intermedios para las demostraciones de incitación, lo que también se conoce como incitación de cadena de pensamiento (CoT).
Sin embargo, la mayoría de los trabajos actuales sobre CoT se centran únicamente en la modalidad lingüística, y para extraer el razonamiento CoT en multimodalidad, los investigadores emplean con frecuencia el paradigma Multimodal-CoT. Multimodal-CoT divide los problemas de varios pasos en procesos de razonamiento intermedios, generando el resultado final incluso cuando las entradas están en varias modalidades como la visión y el lenguaje.
Una de las formas más populares de llevar a cabo la CoT multimodal consiste en combinar las entradas de varias modalidades en una sola antes de pedir a los LLM que realicen la CoT. Sin embargo, este método presenta varios inconvenientes, uno de los cuales es la importante pérdida de información que se produce al convertir los datos de una modalidad a otra. Otra forma de llevar a cabo el razonamiento CoT en multimodalidad consiste en afinar pequeños modelos lingüísticos combinando distintas características de la visión y el lenguaje.
Sin embargo, el principal problema de este enfoque es que estos modelos de lenguaje son propensos a producir patrones de razonamiento alucinatorios que afectan significativamente a la inferencia de la respuesta. Para reducir el impacto de estos errores, los investigadores de Amazon propusieron Multimodal-CoT, que combina características visuales en un marco de entrenamiento desacoplado. El marco divide el proceso de razonamiento en dos fases: generación de argumentos e inferencia de respuestas. El modelo produce argumentos más persuasivos al incluir los aspectos visuales en ambas fases, lo que ayuda a crear inferencias de respuesta más precisas. Este trabajo es el primero de este tipo que estudia el razonamiento CoT en distintas modalidades. En la prueba de referencia ScienceQA, la técnica, proporcionada por los investigadores de Amazon, demuestra un rendimiento de vanguardia, superando la precisión de GPT-3.5 en un 16% y superando el rendimiento humano.
Las etapas de inferencia y generación de razonamiento del CoT Multimodal-answer utilizan la misma arquitectura de modelo y difieren en el tipo de entrada y salida. Tomando el ejemplo de un modelo de visión-lenguaje, el modelo se alimenta de datos tanto del dominio visual como del lingüístico durante la etapa de generación del razonamiento. Una vez generado el razonamiento, se añade a la entrada lingüística inicial en la etapa de inferencia de respuestas para crear la entrada lingüística de la etapa siguiente. A continuación, el modelo recibe los datos actualizados y se entrena para obtener el resultado deseado. Un modelo basado en transformadores que realiza tres funciones principales (codificación, interacción y descodificación) constituye la base del modelo subyacente. En pocas palabras, el texto de la lengua se introduce en un codificador Transformer para crear una representación textual. A continuación, esta representación textual se combina con la representación visual y se introduce en el descodificador Transformer.
Para evaluar la eficacia de su método, los investigadores realizaron numerosas pruebas en el ScienceQA benchmark, un conjunto de datos a gran escala de preguntas científicas multimodales que contiene más de 21.000 MCQ multimodales con respuestas anotadas. Los investigadores concluyeron que su método superaba al modelo GPT-3.5 en un 16%. En pocas palabras, los investigadores de Amazon estudiaron y resolvieron el problema del razonamiento Multimodal-CoT proponiendo un marco en dos fases mediante el ajuste de modelos lingüísticos que combinan representaciones visuales y lingüísticas para ejecutar Multimodal-CoT. De este modo, el modelo genera razonamientos informativos para facilitar la inferencia de respuestas finales. A continuación se puede acceder al repositorio GitHub del modelo.
Eche un vistazo al Papel y Github.
Khushboo Gupta es becaria de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Goa. Le apasionan los campos del aprendizaje automático, el procesamiento del lenguaje natural y el desarrollo web. Le gusta aprender más sobre el campo técnico participando en varios retos.