El intérprete de código GPT-4 pulveriza los parámetros matemáticos y alcanza un nuevo SOTA

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-08-19 15:08:29

Los investigadores han logrado un nuevo SOTA en la prueba MATH con GPT-4 Code Interpreter utilizando nuevos métodos de indicación.

El equipo probó el último sistema de IA de OpenAI, GPT-4 Code Interpreter (GPT4-Code), en conjuntos de datos de razonamiento matemático como MATH. Según los investigadores, este conjunto de datos está reconocido como el más complejo de los problemas matemáticos.

Descubrieron que GPT4-Code superaba significativamente a GPT-4, alcanzando una precisión del 69,7% en MATH frente al 42,2% de GPT-4, y también superaba significativamente el rendimiento anterior del estado de la técnica, que era del 53,9%.

Utilizando diferentes indicaciones, el equipo introdujo distintas restricciones en la frecuencia de uso de código permitida en el Código GPT4 y descubrió «que su éxito puede atribuirse en gran medida a sus potentes habilidades para generar y ejecutar código, evaluar el resultado de la ejecución del código y rectificar su solución cuando recibe resultados poco razonables.»

Dos métodos mejoran enormemente las capacidades matemáticas del Intérprete de Código GPT-4

Basándose en estos hallazgos, los investigadores se propusieron mejorar aún más las capacidades matemáticas del Código GPT4 impulsando una ejecución más frecuente del código, ya que esto mejora el rendimiento, especialmente en los problemas más difíciles.

Propusieron dos métodos:

  • Autoverificación explícita basada en código
    • Pide al Intérprete de Códigos GPT-4 que verifique su respuesta con el código. Si es incorrecta, seguirá intentándolo hasta que la verificación tenga éxito.
  • Verificación-Votación por Mayoría Ponderada Guiada
    • Incorpora los resultados de la verificación a la votación por mayoría. Las respuestas verificadas como verdaderas reciben mayor peso, lo que refleja una mayor confianza.
El interprete de codigo GPT 4 pulveriza los parametros matematicos y 2023-08-19 15:08:29
Bild: Zhou, Wang, Lu, Shi, Luo et al.

Los experimentos demostraron que estos métodos mejoraban la precisión de MATH hasta el 84,3%, superando el 69,7% de GPT4-Code. La clave estaba en explotar sus capacidades de autoverificación mediante un mayor uso del código.

Los métodos podrían producir conjuntos de datos más precisos para modelos de código abierto como LLaMA 2

Los investigadores también evaluaron su técnica en la prueba de referencia MMLU para problemas matemáticos y científicos. Una vez más, mejoró la precisión del intérprete de código GPT-4 en todos los conjuntos de datos, lo que demuestra su amplia aplicabilidad.

El equipo quiere ahora aplicar sus hallazgos sobre el importante papel de la frecuencia de uso del código y sus dos métodos a otros LLM fuera de GPT-4. También planean utilizarlos para crear conjuntos de datos más precisos que incluyan «la generación de soluciones detalladas paso a paso basadas en código y la validación basada en código, lo que podría ayudar a mejorar los LLM de código abierto como LLaMA 2».

Deja una opinión

Deje una respuesta

🤖 AI MAFIA
Logo