Un estudio demuestra la degradaci贸n del rendimiento de ChatGPT desde marzo

A帽adir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuaci贸n0

2023-07-21
Un estudio examina c贸mo ha cambiado el comportamiento de ChatGPT entre marzo y junio y encuentra algunos cambios significativos, y no para mejor.

Investigadores de la Universidad de Stanford y la UC Berkeley evaluaron el rendimiento de una versi贸n antigua y otra m谩s reciente de GPT-3.5 y GPT-4 en cuatro tareas diferentes:

  1. Resoluci贸n de problemas matem谩ticos
  2. Responder a preguntas dif铆ciles o peligrosas
  3. generar c贸digo
  4. pensamiento visual

El estudio muestra que el rendimiento y el comportamiento de las dos versiones difieren, a veces dr谩sticamente. Por ejemplo, GPT-4 (marzo de 2023) es capaz de reconocer n煤meros primos con una precisi贸n del 97,6%, mientras que GPT-4 (junio de 2023) falla (2,4% de precisi贸n) e ignora la indicaci贸n de la cadena de pensamiento. Por otro lado, GPT-3.5 (junio de 2023) tiene un rendimiento significativamente mejor que GPT-3.5 (marzo de 2023) en esta tarea.

GPT-4 produce significativamente menos c贸digo directamente ejecutable en junio de

Tambi茅n se observa un descenso significativo en la ejecutabilidad directa del c贸digo: Para GPT-4, el porcentaje de generaciones directamente ejecutables cay贸 del 52% en marzo al 10% en junio. La ca铆da para GPT-3.5 tambi茅n fue significativa (del 22% al 2%). La raz贸n: en marzo, tanto GPT-4 como GPT-3.5 siguieron las instrucciones del usuario (芦s贸lo el c贸digo禄) y, por tanto, produjeron generaciones directamente ejecutables.

En junio, sin embargo, a帽adieron comillas triples adicionales antes y despu茅s del c贸digo, haciendo que no fuera directamente ejecutable sin intervenci贸n manual. La calidad del c贸digo generado parece estar a un nivel similar, pero el equipo no realiz贸 una comparaci贸n detallada.

El equipo tambi茅n muestra que GPT-4 responde a menos preguntas complicadas en junio y rinde ligeramente mejor en tareas de razonamiento visual, pero comete errores en junio que el modelo de marzo no comete. Los investigadores tambi茅n observan una ligera mejora en GPT-3.5.

Un equipo recomienda a las empresas que apliquen an谩lisis de seguimiento a los servicios LLM

驴Es GPT-4 peor ahora que en marzo? El estudio no ofrece una respuesta clara a esta pregunta, pero parece demostrar que la versi贸n de junio contiene errores que no estaban presentes en la versi贸n anterior.

驴Cu谩l es el verdadero mensaje?

芦Nuestros hallazgos demuestran que el comportamiento de GPT-3.5 y GPT-4 ha variado significativamente en un periodo de tiempo relativamente corto禄, afirman los investigadores. 芦Esto pone de relieve la necesidad de evaluar y valorar continuamente el comportamiento de los LLM en aplicaciones de producci贸n禄.

As铆 que si estos cambios son errores, como Peter Welinder, vicepresidente de producto de OpenAI, sugiri贸 en un ejemplo similar, o evidencia de una disminuci贸n general de la calidad basada en las optimizaciones que OpenAI ha hecho para reducir costes, sigue sin estar claro – y eso es un problema porque es opaco para los clientes de OpenAI.

Como resultado, el equipo recomienda que los usuarios o empresas que utilicen servicios LLM como parte de su flujo de trabajo implementen un an谩lisis de seguimiento similar para sus aplicaciones basado en la investigaci贸n presentada. Para apoyar este proceso y futuras investigaciones sobre la deriva de los modelos ling眉铆sticos, el equipo pone a disposici贸n los datos de evaluaci贸n y ChatGPT en GitHub.

OpenAI reacciona a la investigaci贸n y 芦lo est谩 estudiando禄

Respondiendo a la investigaci贸n. Logan Kilpatrick, actual responsable de las relaciones con los desarrolladores de OpenAI, ha declarado que la empresa es consciente de las regresiones detectadas y las est谩 investigando. Tambi茅n pidi贸 un conjunto de evaluaci贸n p煤blica OpenAI para poner a prueba en contra de estos casos de regresi贸n conocidos como nuevos modelos son liberados.

En otro post, dio las gracias a todo el mundo por informar de sus experiencias con el rendimiento del modelo GPT-4. As铆 que la compa帽铆a parece estar cambiando la comunicaci贸n despu茅s de algunos casos en los que el personal de OpenAI dijo que nada hab铆a cambiado y Welinder comparti贸 su hip贸tesis de que 芦cuando lo usas m谩s intensamente, empiezas a notar problemas que antes no ve铆as.禄

El mercado de la IA generativa sigue necesitando un control de calidad

Sin embargo, los problemas a los que se enfrenta OpenAI con GPT-4 no son exclusivos de la empresa. Cualquier empresa que despliegue y actualice regularmente modelos de IA puede mostrarse reacia a comunicar los cambios si no se traducen directamente en mejoras de rendimiento o reducciones de costes para sus clientes, y en algunos casos, la empresa puede incluso no darse cuenta de la degradaci贸n antes del despliegue. Un ejemplo: Tambi茅n han aparecido informes sobre la degradaci贸n del rendimiento del servicio de IA generativa Midjourney. Esos informes muestran la misma estructura de relatos personales y especulaciones.

Todo esto demuestra lo nuevo y complicado que es el mercado de productos de IA generativa. En el futuro, evaluaciones como la que quiere crear Kilpatrick pueden ayudar a pasar de las pruebas anecd贸ticas a puntos de referencia claros.

Deja una opini贸n

Deje una respuesta

馃 AI MAFIA
Logo