2023-07-21
Un estudio examina cómo ha cambiado el comportamiento de ChatGPT entre marzo y junio y encuentra algunos cambios significativos, y no para mejor.
Investigadores de la Universidad de Stanford y la UC Berkeley evaluaron el rendimiento de una versión antigua y otra más reciente de GPT-3.5 y GPT-4 en cuatro tareas diferentes:
- Resolución de problemas matemáticos
- Responder a preguntas difíciles o peligrosas
- generar código
- pensamiento visual
El estudio muestra que el rendimiento y el comportamiento de las dos versiones difieren, a veces drásticamente. Por ejemplo, GPT-4 (marzo de 2023) es capaz de reconocer números primos con una precisión del 97,6%, mientras que GPT-4 (junio de 2023) falla (2,4% de precisión) e ignora la indicación de la cadena de pensamiento. Por otro lado, GPT-3.5 (junio de 2023) tiene un rendimiento significativamente mejor que GPT-3.5 (marzo de 2023) en esta tarea.
GPT-4 produce significativamente menos código directamente ejecutable en junio de
También se observa un descenso significativo en la ejecutabilidad directa del código: Para GPT-4, el porcentaje de generaciones directamente ejecutables cayó del 52% en marzo al 10% en junio. La caída para GPT-3.5 también fue significativa (del 22% al 2%). La razón: en marzo, tanto GPT-4 como GPT-3.5 siguieron las instrucciones del usuario («sólo el código») y, por tanto, produjeron generaciones directamente ejecutables.
En junio, sin embargo, añadieron comillas triples adicionales antes y después del código, haciendo que no fuera directamente ejecutable sin intervención manual. La calidad del código generado parece estar a un nivel similar, pero el equipo no realizó una comparación detallada.
El equipo también muestra que GPT-4 responde a menos preguntas complicadas en junio y rinde ligeramente mejor en tareas de razonamiento visual, pero comete errores en junio que el modelo de marzo no comete. Los investigadores también observan una ligera mejora en GPT-3.5.
Un equipo recomienda a las empresas que apliquen análisis de seguimiento a los servicios LLM
¿Es GPT-4 peor ahora que en marzo? El estudio no ofrece una respuesta clara a esta pregunta, pero parece demostrar que la versión de junio contiene errores que no estaban presentes en la versión anterior.
¿Cuál es el verdadero mensaje?
«Nuestros hallazgos demuestran que el comportamiento de GPT-3.5 y GPT-4 ha variado significativamente en un periodo de tiempo relativamente corto», afirman los investigadores. «Esto pone de relieve la necesidad de evaluar y valorar continuamente el comportamiento de los LLM en aplicaciones de producción».
Así que si estos cambios son errores, como Peter Welinder, vicepresidente de producto de OpenAI, sugirió en un ejemplo similar, o evidencia de una disminución general de la calidad basada en las optimizaciones que OpenAI ha hecho para reducir costes, sigue sin estar claro – y eso es un problema porque es opaco para los clientes de OpenAI.
Como resultado, el equipo recomienda que los usuarios o empresas que utilicen servicios LLM como parte de su flujo de trabajo implementen un análisis de seguimiento similar para sus aplicaciones basado en la investigación presentada. Para apoyar este proceso y futuras investigaciones sobre la deriva de los modelos lingüísticos, el equipo pone a disposición los datos de evaluación y ChatGPT en GitHub.
OpenAI reacciona a la investigación y «lo está estudiando»
Respondiendo a la investigación. Logan Kilpatrick, actual responsable de las relaciones con los desarrolladores de OpenAI, ha declarado que la empresa es consciente de las regresiones detectadas y las está investigando. También pidió un conjunto de evaluación pública OpenAI para poner a prueba en contra de estos casos de regresión conocidos como nuevos modelos son liberados.
En otro post, dio las gracias a todo el mundo por informar de sus experiencias con el rendimiento del modelo GPT-4. Así que la compañía parece estar cambiando la comunicación después de algunos casos en los que el personal de OpenAI dijo que nada había cambiado y Welinder compartió su hipótesis de que «cuando lo usas más intensamente, empiezas a notar problemas que antes no veías.»
El mercado de la IA generativa sigue necesitando un control de calidad
Sin embargo, los problemas a los que se enfrenta OpenAI con GPT-4 no son exclusivos de la empresa. Cualquier empresa que despliegue y actualice regularmente modelos de IA puede mostrarse reacia a comunicar los cambios si no se traducen directamente en mejoras de rendimiento o reducciones de costes para sus clientes, y en algunos casos, la empresa puede incluso no darse cuenta de la degradación antes del despliegue. Un ejemplo: También han aparecido informes sobre la degradación del rendimiento del servicio de IA generativa Midjourney. Esos informes muestran la misma estructura de relatos personales y especulaciones.
Todo esto demuestra lo nuevo y complicado que es el mercado de productos de IA generativa. En el futuro, evaluaciones como la que quiere crear Kilpatrick pueden ayudar a pasar de las pruebas anecdóticas a puntos de referencia claros.