Puntos Clave:
- El estudio de la Universidad Carnegie Mellon (CMU) muestra que el modelo lingüístico de Google, Gemini Pro, queda por detrás de GPT-3.5 y GPT-4 en las pruebas comparativas.
- Existe la necesidad de contar con instituciones o procesos neutrales de evaluación comparativa para los modelos lingüísticos.
- El uso exclusivo de puntos de referencia autodeclarados por grandes empresas no es una medida fiable del rendimiento de los LLM.
Según un estudio reciente de la Universidad Carnegie Mellon (CMU), el último gran modelo lingüístico de Google, Gemini Pro, queda por detrás de GPT-3.5 y muy por detrás de GPT-4 en las pruebas comparativas. Los resultados contradicen la información facilitada por Google en la presentación de Gemini y subrayan la necesidad de contar con instituciones o procesos neutrales de evaluación comparativa.
El estudio señala que Google Gemini Pro obtuvo peores resultados que OpenAI GPT-3.5 Turbo en todas las áreas examinadas en el momento del análisis. Las diferencias en las pruebas podrían deberse a los mecanismos de protección de Google.
Además, el estudio revela que Google informó puntuaciones más altas para Gemini Pro en comparación con las reportadas por los investigadores de la CMU. Estos hallazgos refuerzan la importancia de una evaluación neutral y confiable de los modelos de lenguaje, en lugar de depender exclusivamente de las afirmaciones de las grandes empresas.
El estudio también sugiere que el modelo GPT-4 Turbo de OpenAI está significativamente por detrás del GPT-4 original en la comprensión del lenguaje, según un benchmark MMLU. Sin embargo, el GPT-4 Turbo es actualmente el mejor valorado en el ámbito de los chatbot.
En resumen, la investigación de la CMU destaca la importancia de una evaluación imparcial y precisa de los modelos de lenguaje, así como el cuestionamiento de las afirmaciones autodeclaradas de las grandes empresas en el campo de la inteligencia artificial.