2023-07-22 11:01:26
La empresa de difusión estable Stability AI lanza dos nuevos modelos lingüísticos de gran tamaño junto con CarperAI. Uno de ellos se basa en Llama v2 de Meta, mejorando su rendimiento y demostrando lo rápido que puede ser el desarrollo de código abierto.
Ambos modelos de FreeWilly se basan en los modelos Llama de Meta, con FreeWilly2 ya utilizando el modelo más reciente Llama-2 con 70 mil millones de parámetros. El esfuerzo del propio equipo de FreeWilly consiste en un «cuidadoso ajuste fino» con un nuevo conjunto de datos sintéticos generados con «instrucciones de alta calidad».
De lo grande a lo pequeño
El equipo utilizó el «método Orca» de Microsoft. que consiste en enseñar a un modelo pequeño el proceso de razonamiento paso a paso de un modelo lingüístico grande, en lugar de limitarse a imitar su estilo de salida. Para ello, los investigadores de Microsoft crearon un conjunto de datos de entrenamiento con el modelo más grande, en este caso GPT-4, que contenía sus procesos de razonamiento paso a paso.
El objetivo de este tipo de experimentos es desarrollar modelos de IA pequeños que funcionen de forma similar a los grandes, una especie de principio maestro-alumno. Orca supera a modelos de tamaño similar en algunas pruebas, pero no puede igualar a los modelos originales.
El equipo de FreeWilly afirma haber creado un conjunto de datos de 600.000 puntos de datos con las instrucciones y los modelos lingüísticos que eligieron, sólo un diez por ciento del conjunto de datos utilizado por el equipo de Orca. Esto reduce significativamente la cantidad de entrenamiento necesario y mejora la huella ambiental del modelo, afirma el equipo.
VanillaLlama v2 ya ha superado a ChatGPT
En los puntos de referencia comunes, el modelo FreeWilly entrenado de esta manera logra resultados a la par con ChatGPT en algunas tareas lógicas, con el modelo FreeWilly 2 basado en Llama 2 superando claramente a FreeWilly 1.
De media en todas las pruebas, FreeWilly 2 está unos cuatro puntos por delante de Llama v2, un primer indicio de que el nuevo modelo estándar de Meta tiene margen de mejora y que la comunidad de código abierto puede ayudar a explotarlo.
En conjunto, FreeWilly 2 lidera actualmente la lista de modelos de código abierto con mejores resultadoscon el Llama 2 original aún ligeramente por delante en la importante prueba comparativa de comprensión general del lenguaje MMLU.
FreeWilly1 y FreeWilly2 establecen un nuevo estándar en el campo de los Modelos de Lenguaje de Libre Acceso. Ambos hacen avanzar significativamente la investigación, mejoran la comprensión del lenguaje natural y permiten realizar tareas complejas.
Carper AI, Stability AI
Los modelos FreeWilly se han desarrollado únicamente con fines de investigación y se publican bajo una licencia no comercial. Pueden ser descargados de HuggingFace aquí.