GPT-4 sigue estando por delante de sus competidores según un nuevo conjunto de pruebas comparativas

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-10-02 13:04:55

Las pruebas comparativas son un motor clave del progreso de la IA. Pero también tienen muchas deficiencias. El nuevo conjunto de pruebas GPT-Fathom pretende reducir algunos de estos inconvenientes.

Los puntos de referencia permiten a los desarrolladores de IA medir el rendimiento de sus modelos en diversas tareas. En el caso de los modelos lingüísticos, por ejemplo, responder a preguntas de conocimiento o resolver tareas lógicas. En función de su rendimiento, el modelo recibe una puntuación que luego puede compararse con los resultados de otros modelos.

Estos resultados de evaluación comparativa constituyen la base para tomar nuevas decisiones de investigación y, en última instancia, de inversión. También proporcionan información sobre los puntos fuertes y débiles de los distintos métodos.

Aunque existen muchos puntos de referencia y clasificaciones de LLM, a menudo carecen de parámetros y especificaciones coherentes, como los métodos de estimulación, o no tienen en cuenta adecuadamente la sensibilidad de la estimulación.

Esta falta de coherencia dificulta la comparación o reproducción de resultados entre estudios.

GPT-Fathom pretende estructurar la evaluación comparativa LLM

GPT-Fathom es un kit de evaluación de código abierto para LLM que aborda los retos mencionados. Ha sido desarrollado por investigadores de ByteDance y la Universidad de Illinois en Urbana-Champaign a partir de la plataforma existente OpenAI LLM marco de evaluación comparativa Evals.

GPT-Fathom pretende abordar problemas clave en la evaluación de LLM, incluyendo ajustes inconsistentes – como el número de ejemplos («disparos») en el prompt, colecciones incompletas de modelos y benchmarks, y consideración insuficiente de la sensibilidad de los modelos a diferentes métodos de prompting.

El equipo utilizó su propio sistema para comparar más de diez de los principales LLM con más de 20 puntos de referencia cuidadosamente seleccionados en siete categorías de habilidades, como el conocimiento, la lógica o la programación, bajo configuraciones coherentes.

GPT-4 está claramente por delante

Si eres usuario habitual de distintos LLM, el resultado principal no te sorprenderá: GPT-4, el modelo detrás de la versión de pago de ChatGPT, «aplasta» a la competencia en la mayoría de las pruebas comparativas, escribe el equipo de investigación. GPT-4 también resultó ser el modelo ganador en una prueba comparativa sobre alucinaciones publicada recientemente.

En comparación con los modelos de OpenAI de la familia GPT-3.5, GPT-4 está claramente por delante. Los investigadores también midieron una diferencia de rendimiento significativa en la mayoría de las pruebas comparativas con Claude 2, que actualmente es el competidor más fuerte de ChatGPT. Claude 2 no puede igualar a GPT-4, pero sigue siendo el modelo no OpenAI más capaz, concluyen los investigadores. El modelo de análisis avanzado de datos de GPT-4 también supera a la competencia en codificación.

GPT 4 aplasta a otros LLM segun un nuevo conjunto de 2023-10-02 13:04:55
Las cifras entre paréntesis proceden de otros estudios debido a la falta de acceso a la API. | Imagen: Zhang et al.
1696257079 479 GPT 4 aplasta a otros LLM segun un nuevo conjunto de 2023-10-02 13:04:55
Imagen: Zhang et al.

El modelo de código abierto con mejor rendimiento actual, Llama 2, supera a su predecesor, Llama-65B, en la mayoría de las pruebas, especialmente en las tareas de razonamiento y comprensión. En comparación con gpt-3.5-turbo-0613, Llama 2-70B muestra un rendimiento comparable en seguridad e incluso lo supera en comprensión.

Sin embargo, Llama 2-70B rinde peor en otras áreas, especialmente en «Matemáticas», «Codificación» y «Multilingüismo». Estas son debilidades conocidas del modelo de código abierto de Meta.

Para los modelos LLaMA-65B y Llama 2-70B, el equipo de investigación también afirma haber medido una sensibilidad puntual particular. En el caso de Llama 2-70B, incluso un pequeño cambio en la pregunta provocó una caída en la puntuación de 74,0 a 55,5 puntos en la prueba comparativa TriviaQA. Esta prueba evalúa la comprensión lectora y la capacidad de respuesta de los LLM.

El equipo de investigación también comparó la evolución de los modelos de OpenAI desde los primeros días de GPT-3 a GPT-4, y el resultado muestra el enorme salto de GPT-3 a sus sucesores. Que los futuros modelos puedan dar saltos similares será probablemente decisivo para el impacto de los grandes modelos lingüísticos, especialmente en el mercado laboral.

1696257079 473 GPT 4 aplasta a otros LLM segun un nuevo conjunto de 2023-10-02 13:04:55
Imagen: Zhang et al.

El efecto balancín aumenta la complejidad del desarrollo del LLM

En el documento, el equipo también describe el efecto «compensación» o «balancín»: Una mejora significativa del rendimiento del modelo en un área puede provocar una degradación involuntaria del rendimiento en otra.

Por ejemplo, según las mediciones del equipo, «gpt-3.5-turbo-0613» mejoró significativamente su rendimiento en las pruebas de codificación en comparación con su predecesor, «gpt-3.5-turbo-0301». Al mismo tiempo, sin embargo, la puntuación MATH descendió significativamente de 32,0 a 15,0.

Un patrón similar puede observarse en GPT-4: el salto de modelo de gpt-4-0314 a gpt-4-0613 condujo a un fuerte aumento del rendimiento en la prueba de comprensión de texto DROP (Discrete Reasoning Over Paragraphs).

Al mismo tiempo, sin embargo, el rendimiento en la prueba de Geometría Matemática Simple (MGSM) descendió significativamente de 82,2 a 68,7 puntos. Esta prueba mide tareas de cálculo sencillas que requieren conocimientos básicos de teoría de números, aritmética y geometría.

Según el equipo de investigación, estos patrones ponen de manifiesto la complejidad de entrenar y optimizar los LLM. Se necesita más investigación para comprender mejor estos efectos.

Deja una opinión

Deje una respuesta

🤖 AI MAFIA
Logo