2023-11-22 15:40:36
Investigadores de Microsoft muestran Orca 2, un modelo lingüístico relativamente pequeño con capacidades de razonamiento mejoradas que puede competir con modelos más grandes en determinadas tareas.
El equipo de investigadores sostiene que centrarse demasiado en el aprendizaje por imitación, en el que los modelos pequeños se limitan a reproducir los resultados de modelos más grandes, podría limitar su potencial.
En su lugar, el equipo utiliza el «método Orca» para entrenar modelos lingüísticos pequeños con el proceso de pensamiento paso a paso de un modelo lingüístico grande, en lugar de limitarse a imitar su estilo de salida. Esto permite al modelo encontrar la estrategia de solución más eficaz para cada tarea.
El objetivo de este tipo de experimentos es desarrollar pequeños modelos de IA que tengan un rendimiento similar al de los modelos grandes, pero que requieran menos potencia de cálculo.
Debido al elevado coste de GPT-4, Microsoft en particular está intensificando actualmente su investigación en modelos de IA generativa más eficientes, como se ha demostrado recientemente con Phi-2. Orca 2 se basa en la familia de modelos LLaMA 2 de Meta.
Capacidades avanzadas de razonamiento para modelos lingüísticos más pequeños
Según el equipo de investigación, Orca 2 se entrenó con un conjunto de datos sintéticos ampliados y personalizados que enseñan al modelo diversas técnicas de razonamiento, como el procesamiento paso a paso, el método recordar-luego-generar, el método recordar-razonar-generar, el método extraer-generar y el método de respuesta directa.
Los datos de entrenamiento proceden de un modelo maestro más potente que ayuda al modelo más pequeño a aprender la estrategia de generación subyacente y las habilidades de razonamiento. Los investigadores llaman a este proceso «ajuste de explicaciones».
Una idea clave de Orca 2 es que las distintas tareas pueden beneficiarse de diferentes estrategias de solución (por ejemplo, procesamiento paso a paso, recordar y luego generar, recordar-razonar-generar, extraer-generar y respuesta directa) y que la estrategia de solución empleada por un modelo grande puede no ser la mejor opción para uno más pequeño. Por ejemplo, mientras que un modelo extremadamente capaz como GPT-4 puede responder directamente a tareas complejas, un modelo más pequeño puede beneficiarse de dividir la tarea en pasos.
Un aspecto es que la calidad del modelo de profesor es fundamental para la eficacia del método. Para su experimento, el equipo utilizó GPT-4 a través de ChatGPT, el modelo más potente actualmente en el mercado. Los resultados que se muestran a continuación son, por tanto, potencialmente punteros y representan el límite superior de lo que es posible actualmente con Orca.
Orca 2 supera a los modelos más grandes
El equipo probó Orca 2 con un amplio conjunto de 15 pruebas comparativas diferentes que abarcaban aproximadamente 100 tareas y más de 36.000 casos de prueba individuales en escenarios de disparo cero.
Los puntos de referencia abarcan diversos aspectos, como la comprensión lingüística, los conocimientos cotidianos, el pensamiento multinivel, la resolución de problemas matemáticos, la comprensión lectora, el resumen, la fundamentación, la veracidad y el contenido tóxico y la identificación.
Los resultados muestran que Orca 2 supera significativamente a modelos de tamaño similar, alcanzando niveles de rendimiento comparables o mejores que modelos entre cinco y diez veces mayores. Esto es especialmente cierto en tareas complejas que ponen a prueba habilidades de razonamiento avanzadas en escenarios de disparo cero.
Sin embargo, Orca 2 también tiene limitaciones típicas de otros modelos lingüísticos, como distorsiones, falta de transparencia, alucinaciones y errores de contenido, y puede conservar muchas de las limitaciones del modelo del profesor, escribe el equipo.
Orca 2 muestra un potencial prometedor para futuras mejoras, especialmente en lo que se refiere a la mejora del razonamiento, el control y la seguridad mediante el uso de datos sintéticos para el post-entrenamiento, concluye el equipo.
Aunque los grandes modelos fundacionales seguirán demostrando capacidades superiores, la investigación y el desarrollo de modelos como Orca 2 podrían allanar el camino a nuevas aplicaciones que requieren diferentes escenarios de despliegue y compensaciones entre eficiencia y rendimiento, escribe el equipo.
Microsoft está haciendo Orca 2 disponible como código abierto para fines de investigación en Hugging Face.