
2023-08-16 13:42:40
Meta desarrolló un método para que grandes modelos lingüísticos mejoraran iterativamente su capacidad para seguir instrucciones, sin depender de anotaciones humanas o de la destilación de modelos más potentes.
La investigación de Meta propone una nueva técnica denominada «retrotraducción de instrucciones» que permite afinar los grandes modelos lingüísticos como LLaMa para seguir instrucciones sin depender de costosas anotaciones humanas o de la destilación de modelos más potentes como GPT-4.
La retrotraducción de instrucciones es el autoajuste del ajuste de instrucciones
La retrotraducción de instrucciones es un proceso de dos fases que combina la autoaumentación y la autocuración. En la fase de autoaumento, el modelo lingüístico se utiliza para generar pares de instrucciones-respuestas candidatas a partir del corpus de textos sin etiquetar. Para cada texto sin etiquetar, el modelo intenta predecir qué instrucción provocaría esa respuesta. El resultado es un amplio conjunto de ejemplos sintetizados.
A continuación, la fase de autocuración utiliza el modelo para puntuar estos pares candidatos y filtrar los de baja calidad. El modelo clasifica los ejemplos y se queda sólo con el subconjunto de mayor puntuación. Estos pasos de generación de candidatos y selección de los mejores datos se repiten. Cada iteración produce un modelo mejor que, a su vez, puede mejorar la calidad de los datos que selecciona para la siguiente ronda.
A través de este proceso iterativo de autoentrenamiento, el modelo aprende a generar mejores instrucciones y también a discriminar mejor los ejemplos de demostración de alta calidad.
El modelo Humpback de Meta supera a Anthropics Claude en las pruebas de seguimiento de instrucciones
Los investigadores de Metas demuestran que este enfoque conduce a un fuerte rendimiento en el seguimiento de instrucciones, superando trabajos anteriores que utilizaban el modelo LLaMa a la misma escala. El modelo resultante, Humpback 65B, alcanza los mejores resultados entre los métodos LLaMa no destilados en el benchmark de seguimiento de instrucciones Alpaca, superando el rendimiento de modelos como Anthropics Claude, Guanaco, LIMA y Falcon-Instruct.
En futuros trabajos, el equipo planea ampliar este método «considerando corpus no etiquetados más grandes, lo que nuestro análisis sugiere que debería producir mayores ganancias».