2023-12-10 13:27:09
Investigadores de la Universidad Tsinghua, el Laboratorio de Inteligencia Artificial de Shanghái y 01.AI han desarrollado un nuevo marco llamado OpenChat para mejorar los modelos lingüísticos de código abierto con datos de calidad mixta.
Los modelos lingüísticos de código abierto, como LLaMA y LLaMA2, que permiten a cualquiera inspeccionar y comprender el código del programa, suelen refinarse y optimizarse mediante técnicas especiales como el ajuste fino supervisado (SFT) y el ajuste fino por aprendizaje de refuerzo (RLFT).
Sin embargo, estas técnicas presuponen que todos los datos utilizados son de la misma calidad. En la práctica, sin embargo, un conjunto de datos suele consistir en una mezcla de datos óptimos y relativamente pobres. Esto puede perjudicar el rendimiento de los modelos lingüísticos.
Para resolver este problema, OpenChat utiliza un nuevo método llamado RLFT condicionado (C-RLFT). Este método trata las distintas fuentes de datos como clases diferentes que sirven como etiquetas de recompensa gruesas, sin necesidad de etiquetar específicamente los datos preferidos. En pocas palabras, el sistema aprende que algunos datos son excelentes mientras que otros son relativamente malos y los pondera en consecuencia sin tener que etiquetar explícitamente los datos.
Dado que la C-RLFT no requiere un aprendizaje por refuerzo complejo ni una costosa retroalimentación humana, es relativamente fácil de implementar. Según los investigadores, basta con un aprendizaje supervisado sin RL de un solo paso, en el que la IA aprende a partir de unos pocos ejemplos con respuestas correctas sin tener que recurrir a métodos de ensayo y error como el aprendizaje por refuerzo. Esto ahorra tiempo y computación.
C-RLFT muestra su potencial en pruebas comparativas
La C-RLFT tiene varias ventajas sobre otros métodos. Depende menos de la calidad de los datos porque puede trabajar con una mezcla de datos buenos y malos. El método es más fácil de aplicar que otros porque no requiere complejos procesos de aprendizaje y evaluación, y es robusto porque utiliza específicamente diferentes calidades de datos. Al no depender de la costosa retroalimentación humana, la C-RLFT también es rentable.
En las pruebas iniciales, el modelo OpenChat 13b refinado con C-RLFT supera a todos los demás modelos lingüísticos probados e incluso puede superar a modelos mucho mayores, como Llama 2 70B, en el banco de MT.
Los puntos de referencia anteriores proceden del documento C-RLFT de finales de septiembre. Según el equipo de investigación, el OpenChat 3.5-7B con ventana contextual de 8K publicado a principios de noviembre, fue capaz incluso de superar a ChatGPT en algunas pruebas.
Los investigadores ven margen de mejora. Por ejemplo, se podría perfeccionar la distribución de recompensas entre distintas fuentes de datos. El método también podría utilizarse en el futuro para mejorar las capacidades de los modelos lingüísticos en otros ámbitos, como el razonamiento lógico.
El marco de OpenChat y todos los datos y modelos asociados son disponibles públicamente en Github. En demostración en línea está disponible aquí. El sitio Modelos de OpenChat v3 se basan en Llama y pueden utilizarse comercialmente bajo la licencia Llama.