2023-12-12 19:37:36
Microsoft afirma que GPT-4, combinado con una estrategia especial de avisos, supera a Google Gemini Ultra en la prueba comparativa de comprensión lingüística MMLU (Measuring Massive Multitask Language Understanding).
Medprompt es una estrategia de avisos introducida recientemente por Microsoft y desarrollada originalmente para retos médicos. Sin embargo, los investigadores de Microsoft han descubierto que también es adecuada para aplicaciones más generales.
Al ejecutar GPT-4 con una versión modificada de Medprompt, Microsoft ha conseguido una nueva puntuación SoTA (State-of-the-Art) en el benchmark MMLU.
El anuncio de Microsoft es especial, ya que Google destacó la nueva puntuación máxima de Ultra en el benchmark MMLU durante la gran presentación de su nuevo sistema de IA Gemini la semana pasada.
Microsoft vuelve a la carga: Los mensajes complejos mejoran el rendimiento en los benchmarks
Los mensajes de Google en el momento del lanzamiento de Gemini eran un tanto engañosos: el modelo Ultra obtuvo el mejor resultado en el benchmark MMLU hasta la fecha, pero con una estrategia de prompting más compleja de lo habitual en este benchmark. Con la estrategia estándar (5 disparos), Gemini Ultra obtiene peores resultados que GPT-4.
El rendimiento de GPT-4 en el MMLU que Microsoft ha publicado ahora con Medprompt+ alcanza un récord del 90,10 por ciento, superando el 90,04 por ciento de Gemini Ultra.
Para lograr este resultado, los investigadores de Microsoft ampliaron Medprompt a Medprompt+ añadiendo un método más sencillo a Medprompt y formulando una estrategia para derivar una respuesta final que combina respuestas tanto de la estrategia básica de Medprompt como del método más sencillo.
El MMLU Benchmark es una prueba exhaustiva de conocimientos generales y razonamiento. Contiene decenas de miles de ítems de 57 áreas temáticas, incluyendo matemáticas, historia, derecho, informática, ingeniería y medicina. Se considera la prueba de referencia más importante para los modelos lingüísticos.
Cuando Microsoft mide el rendimiento, GPT-4 supera a Gemini Ultra en aún más puntos de referencia
Además del benchmark MMLU, Microsoft ha publicado los resultados de otros benchmarks que muestran el rendimiento de GPT-4 en comparación con Gemini Ultra utilizando simples indicaciones comunes a estos benchmarks. Se dice que GPT-4 supera a Gemini Ultra en varios benchmarks utilizando este método de medición, incluyendo GSM8K, MATH, HumanEval, BIG-Bench-Hard, DROP y HellaSwag.
Microsoft publica Medprompt y otras estrategias similares en un repositorio de GitHub llamado Promptbase. El repositorio contiene scripts, herramientas generales e información para ayudar a reproducir los resultados y mejorar el rendimiento de los modelos base.
Es poco probable que las diferencias, en su mayoría pequeñas, entre los puntos de referencia tengan mucha importancia en la práctica; Microsoft y Google las utilizan principalmente con fines de relaciones públicas. Sin embargo, lo que Microsoft está enfatizando aquí, y lo que ya era evidente cuando se anunció Ultra, es que los dos modelos están a la par.
Esto podría significar que OpenAI va por delante de Google – o que es muy difícil desarrollar un LLM mucho más capaz que GPT-4. Podría ser que la tecnología LLM en su forma actual ya haya alcanzado sus límites, como sugirió recientemente Bill Gates. La GPT-4.5 o la GPT-5 de OpenAI podrían aportar algo de claridad en este sentido.