Superando los límites de los LLM de código abierto mediante la autoalineación

3 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-08-16 13:42:40

Meta desarrolló un método para que grandes modelos lingüísticos mejoraran iterativamente su capacidad para seguir instrucciones, sin depender de anotaciones humanas o de la destilación de modelos más potentes.

La investigación de Meta propone una nueva técnica denominada «retrotraducción de instrucciones» que permite afinar los grandes modelos lingüísticos como LLaMa para seguir instrucciones sin depender de costosas anotaciones humanas o de la destilación de modelos más potentes como GPT-4.

La retrotraducción de instrucciones es el autoajuste del ajuste de instrucciones

La retrotraducción de instrucciones es un proceso de dos fases que combina la autoaumentación y la autocuración. En la fase de autoaumento, el modelo lingüístico se utiliza para generar pares de instrucciones-respuestas candidatas a partir del corpus de textos sin etiquetar. Para cada texto sin etiquetar, el modelo intenta predecir qué instrucción provocaría esa respuesta. El resultado es un amplio conjunto de ejemplos sintetizados.

A continuación, la fase de autocuración utiliza el modelo para puntuar estos pares candidatos y filtrar los de baja calidad. El modelo clasifica los ejemplos y se queda sólo con el subconjunto de mayor puntuación. Estos pasos de generación de candidatos y selección de los mejores datos se repiten. Cada iteración produce un modelo mejor que, a su vez, puede mejorar la calidad de los datos que selecciona para la siguiente ronda.

A través de este proceso iterativo de autoentrenamiento, el modelo aprende a generar mejores instrucciones y también a discriminar mejor los ejemplos de demostración de alta calidad.

El modelo Humpback de Meta supera a Anthropics Claude en las pruebas de seguimiento de instrucciones

Los investigadores de Metas demuestran que este enfoque conduce a un fuerte rendimiento en el seguimiento de instrucciones, superando trabajos anteriores que utilizaban el modelo LLaMa a la misma escala. El modelo resultante, Humpback 65B, alcanza los mejores resultados entre los métodos LLaMa no destilados en el benchmark de seguimiento de instrucciones Alpaca, superando el rendimiento de modelos como Anthropics Claude, Guanaco, LIMA y Falcon-Instruct.

En futuros trabajos, el equipo planea ampliar este método «considerando corpus no etiquetados más grandes, lo que nuestro análisis sugiere que debería producir mayores ganancias».

Superando los límites de los LLM de código abierto mediante la autoalineación

La retrotraducción de instrucciones es el autoajuste del ajuste de instrucciones

El modelo Humpback de Meta supera a Anthropics Claude en las pruebas de seguimiento de instrucciones

La herramienta de inteligencia artificial de Wayfair puede rediseñar tu sala y venderte muebles

Increíble Avance en Transcripción de Voz a Texto: WhisperX

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta