2024-04-24 13:13:40
Meta’s Llama 3 fue entrenada con una cantidad récord de datos. Meta ha demostrado que aumentar drásticamente los datos de entrenamiento mejora significativamente el rendimiento. Pero según el cofundador de OpenAI, los modelos de lenguaje actuales podrían estar subentrenados por un factor de 100 a 1000 veces.
¿Están los modelos de lenguaje más avanzados actualmente en uso realmente aprovechando todo su potencial? Según el cofundador de OpenAI, Andrej Karpathy, la respuesta podría ser un rotundo no. Karpathy afirma que los modelos de lenguaje actuales podrían estar «subentrenados por un factor de quizás 100-1000 veces o más».
Los modelos de lenguaje podrían estar significativamente infraentrenados
Esta afirmación surge tras el lanzamiento de Llama 3 por parte de Meta. Este nuevo modelo de lenguaje ha demostrado un rendimiento significativamente mejorado en varias áreas, superando a modelos anteriores. Según Meta, la clave de esta mejora radica en el aumento drástico de los datos de entrenamiento utilizados.
Mientras que la mayoría de los modelos de lenguaje se entrenan con miles de millones de tokens, Llama 3 fue entrenado con una cantidad récord de 15 billones de tokens. Esto supera con creces la cantidad de datos considerada óptima según las leyes de escalado de Chinchilla desarrolladas por DeepMind.
¿Cuántos datos de entrenamiento son suficientes?
Las leyes de Chinchilla sugieren que para un modelo de 8 mil millones de parámetros, alrededor de 200 mil millones de tokens de entrenamiento se consideran óptimos para utilizar la potencia informática de manera más eficiente. Sin embargo, Meta encontró que incluso después de entrenar con 75 veces esa cantidad de datos, sus modelos de 8 mil millones y 70 mil millones de parámetros «continuaron mejorando de forma log-lineal».
Este hallazgo podría indicar que la mayoría de los modelos de lenguaje actuales no están aprovechando todo su potencial debido a una insuficiencia de datos de entrenamiento. Según Karpathy, los modelos podrían estar «significativamente subentrenados por un factor de tal vez 100-1000 veces o más, lejos de su punto de convergencia».
Si esta afirmación es correcta, podría tener implicaciones significativas para la industria de la inteligencia artificial. Karpathy espera que otras empresas de IA sigan el ejemplo de Meta y lancen más modelos pequeños entrenados a largo plazo.
Esto podría llevar a una reconsideración de toda la industria de la IA, ya que actualmente se asume que los modelos de lenguaje más grandes son inherentemente mejores. Sin embargo, los hallazgos de Meta sugieren que incluso los modelos más pequeños podrían alcanzar un rendimiento excepcional si se les entrena con suficientes datos.
El futuro del entrenamiento de modelos de lenguaje
Aunque aún no está claro hasta qué punto se puede aumentar el rendimiento de un modelo de lenguaje a través de un entrenamiento más largo, Meta ha demostrado que los límites de lo que es posible aún no se han alcanzado.
A medida que la industria de la IA explore esta nueva frontera, es probable que veamos modelos aún más potentes y capaces surgir. Sin embargo, también plantea desafíos en términos de los recursos computacionales y energéticos necesarios para entrenar estos modelos masivos.
En última instancia, el equilibrio entre el tamaño del modelo, la cantidad de datos de entrenamiento y la eficiencia computacional será crucial para el avance continuo de la tecnología de modelos de lenguaje. Pero una cosa es clara: los modelos actuales podrían estar apenas rozando la superficie de su verdadero potencial.