2023-11-15 16:17:05
¿Es GPT-4 Turbo «más inteligente» que GPT-4, como anunció Sam Altman? ¿Y qué significa eso?
El último modelo de IA de OpenAI, GPT-4 Turbo, está disponible como vista previa a través de la API de OpenAI y directamente en ChatGPT. Desde que se publicó la vista previa el 6 de noviembre, el modelo ya se ha actualizado una vez.
Según Sam Altman, CEO de OpenAI, GPT-4 Turbo es «mucho más rápido», «más inteligente» y, sobre todo, más barato que GPT-4. Mientras que la velocidad y el precio son obvios, la «inteligencia» del nuevo modelo es objeto de acalorados debates en foros y redes sociales. Algunos informan de pérdidas de rendimiento evidentes y consideran que las capacidades de la GPT-4 no han dejado de disminuir desde la primera versión, otros informan de mejoras y otros de ganancias en algunos casos de uso y pérdidas en otros.
GPT-4 vs. GPT-4 Turbo en pruebas comparativas de código
Los desarrolladores de Mentat AI, un asistente de codificación basado en IA, probaron el nuevo modelo en tareas de codificación. GPT-4 (gpt-4-0314) resolvió 86 de 122 tareas, mientras que GPT-4 Turbo (gpt-4-1106-preview) resolvió 84 de 122 tareas. Sin embargo, un análisis más detallado de los resultados mostró que GPT-4 resolvió 76 ítems en la primera prueba y 10 en la segunda, mientras que GPT-4 Turbo sólo resolvió 56 ítems en la primera prueba y 28 en la segunda.
El equipo, por tanto, sospecha que GPT-4 memorizó una gran proporción de las tareas de entrenamiento y que este conocimiento puede haberse perdido en GPT-4 Turbo debido a optimizaciones como la destilación. Para probar esta teoría, el equipo repitió las pruebas sin mostrar a los modelos las instrucciones de cada tarea, sólo los nombres de las tareas, las funciones y una referencia a la fuente de las pruebas. Sin instrucciones, un modelo de IA sólo puede resolver las tareas si las ha memorizado.
GPT-4 fue capaz de resolver casi el 60% de las tareas, GPT-4 Turbo sólo el 30%. El equipo interpreta estos resultados como una clara indicación de que GPT-4 memorizó más tareas que GPT-4 Turbo. Según estos resultados, GPT-4 podría tener una especie de «bonificación de memoria» que le da ventaja en algunos benchmarks, y en la práctica. Por supuesto, esto también podría ser una desventaja en otros casos de uso, por ejemplo, si escupe bloques de código memorizados en lugar de buscar una solución más eficiente.
Aider, otro asistente de codificación de IA, también probó el nuevo modelo con tareas de codificación. Como era de esperar, GPT-4 Turbo es significativamente más rápido que los modelos GPT-4 anteriores. Todavía no es posible realizar mediciones precisas debido a las limitaciones actuales de OpenAI. También parece ser mejor a la hora de generar código correcto al primer intento. Resuelve el 53% de las tareas de código en el primer intento, mientras que los modelos anteriores sólo resuelven el 46-47% de las tareas en el primer intento. Además, GPT-4 Turbo parece tener en general un rendimiento similar (~62%) al de los modelos antiguos (63-64%) después de que se le da una segunda oportunidad de corregir errores comprobando la salida de errores del conjunto de pruebas.
Se espera que el modelo GPT-4 probado sea retirado del servicio en junio de 2024.
GPT-4 Turbo probablemente utiliza la cadena de pensamiento
En otra prueba, el usuario de X Vlad, CEO de KagiHQ, muestra el rendimiento de los dos modelos en el benchmark PyLLM. Según los resultados, GPT-4 Turbo tiene una precisión del 87% frente al 52% de GPT-4 y es casi cinco veces más rápido, con 48 frente a 10 tokens por segundo. GPT-4 Turbo también es un 30% más barato en la práctica. Según Vlad, podría ser incluso más barato, pero el resultado es de media 2 veces más verboso que GPT-4. Como posible explicación de este salto en el rendimiento, otro usuario señala que GPT-4 Turbo parece utilizar automáticamente la cadena de pensamiento en segundo plano, lo que también explicaría la mayor duración del resultado. Pero incluso con CoT, la precisión de GPT-4 es sólo ligeramente inferior al 60%.
El usuario de X Jeffrey Wang, cofundador de Metaphor Systems, probó el nuevo modelo en pruebas de lectura del SAT en las que el modelo tiene que dar respuestas a un texto. Descubrió que GPT-4 Turbo cometía muchos más errores que GPT-4.
La falta de transparencia de OpenAI podría ser una oportunidad para la competencia
Entonces, ¿es GPT-4 Turbo «más inteligente»? Aún no hay una respuesta clara, al menos si por «más inteligente» se entiende «mejor». Sin embargo, aún no hay un salto claro en el rendimiento. La naturaleza abierta del término – «más inteligente» puede significar muchas cosas, incluida una mayor eficiencia de los recursos en relación con el rendimiento- es una elección deliberada. Altman probablemente habría dicho que GPT-4 Turbo es más inteligente o más potente que GPT-4 si ese fuera claramente el caso.
Así que la presentación se centró en las nuevas funciones «inteligentes»: GPT-4 Turbo puede manejar más texto, tiene un modo JSON y más modalidades integradas, puede llamar a funciones de forma más fiable y tiene conocimientos más actualizados.
Además, a diferencia de GPT-4, OpenAI aún no ha publicado un mapa de modelos ni puntos de referencia para GPT-4 Turbo, una tendencia que comenzó con la última actualización de GPT-4, cuyas capacidades también fueron criticadas en repetidas ocasiones. Esta falta de transparencia significa que corresponde a la comunidad averiguar qué modelo es el más adecuado para cada tarea y cómo controlarlo con mayor precisión. Los ejemplos aquí expuestos no bastan para ello, debido al pequeño tamaño de la muestra. Las cosas se complican aún más en ChatGPT, donde el modelo OpenAIs interactúa con otros sistemas.
La cuestión de qué modelo es mejor, y no sólo «más inteligente», sigue abierta, al igual que la de si se pueden utilizar puntos de referencia para responderla. No está claro, como mínimo, hasta qué punto los puntos de referencia reflejan siempre la experiencia del mundo real. No obstante, sería deseable para los usuarios finales que OpenAI fuera un poco más abierta sobre las mejoras y capacidades específicas de los nuevos modelos para que puedan tomar una decisión con conocimiento de causa. Si OpenAI no asume este papel, competidores como Google podrían hacerlo. La falta de transparencia podría ser una oportunidad para que Google utilizara Gemini para destacar ventajas claras sobre la oferta de OpenAI.