Google Gemini Pro queda por detrás del ChatGPT gratuito, según un estudio

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

Puntos Clave:

  1. El estudio de la Universidad Carnegie Mellon (CMU) muestra que el modelo lingüístico de Google, Gemini Pro, queda por detrás de GPT-3.5 y GPT-4 en las pruebas comparativas.
  2. Existe la necesidad de contar con instituciones o procesos neutrales de evaluación comparativa para los modelos lingüísticos.
  3. El uso exclusivo de puntos de referencia autodeclarados por grandes empresas no es una medida fiable del rendimiento de los LLM.

Según un estudio reciente de la Universidad Carnegie Mellon (CMU), el último gran modelo lingüístico de Google, Gemini Pro, queda por detrás de GPT-3.5 y muy por detrás de GPT-4 en las pruebas comparativas. Los resultados contradicen la información facilitada por Google en la presentación de Gemini y subrayan la necesidad de contar con instituciones o procesos neutrales de evaluación comparativa.

El estudio señala que Google Gemini Pro obtuvo peores resultados que OpenAI GPT-3.5 Turbo en todas las áreas examinadas en el momento del análisis. Las diferencias en las pruebas podrían deberse a los mecanismos de protección de Google.

Además, el estudio revela que Google informó puntuaciones más altas para Gemini Pro en comparación con las reportadas por los investigadores de la CMU. Estos hallazgos refuerzan la importancia de una evaluación neutral y confiable de los modelos de lenguaje, en lugar de depender exclusivamente de las afirmaciones de las grandes empresas.

Google Gemini Pro queda por detras del ChatGPT gratuito segun Según un estudio reciente de la Universidad Carnegie Mellon (CMU), el último gran modelo lingüístico de Google, Gemini Pro, queda por detrás de GPT-3.5 y muy por detrás de GPT-4 en las pruebas comparativas. Los resultados contradicen la información facilitada por Google en la presentación de Gemini y subrayan la necesidad de contar con instituciones o procesos neutrales de evaluación comparativa.
Google obtuvo puntuaciones significativamente más altas con Gemini Pro que los investigadores de la CMU. | Imagen: Google Deepmind

 

El modelo Gemini Pro, que es comparable a GPT 3.5 Turbo en tamaño de modelo y clase, consigue en general una precisión comparable pero algo inferior a GPT 3.5 Turbo, y mucho peor que GPT 4. Supera a Mixtral en todas las tareas que hemos examinado.En particular, encontramos que Gemini Pro tuvo un rendimiento algo inferior a GPT 3.5 Turbo de media, pero en particular tuvo problemas de sesgo al orden de respuesta en preguntas de opción múltiple (Nota: Cuando el modelo tuvo que elegir entre A, B, C y D, normalmente eligió D), razonamiento matemático con dígitos grandes, finalización prematura de tareas agentivas, así como respuestas fallidas debido a un filtrado de contenido agresivo.Por otro lado, hubo puntos brillantes: Gemini rindió mejor que GPT 3.5 Turbo en tareas de razonamiento especialmente largas y complejas, y también fue hábil multilingüe en tareas en las que no se filtraron las respuestas.Del artículo

El estudio también sugiere que el modelo GPT-4 Turbo de OpenAI está significativamente por detrás del GPT-4 original en la comprensión del lenguaje, según un benchmark MMLU. Sin embargo, el GPT-4 Turbo es actualmente el mejor valorado en el ámbito de los chatbot.

En resumen, la investigación de la CMU destaca la importancia de una evaluación imparcial y precisa de los modelos de lenguaje, así como el cuestionamiento de las afirmaciones autodeclaradas de las grandes empresas en el campo de la inteligencia artificial.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo