El intérprete de código GPT-4 pulveriza los parámetros matemáticos y alcanza un nuevo SOTA

11 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-08-19 15:08:29

Los investigadores han logrado un nuevo SOTA en la prueba MATH con GPT-4 Code Interpreter utilizando nuevos métodos de indicación.

El equipo probó el último sistema de IA de OpenAI, GPT-4 Code Interpreter (GPT4-Code), en conjuntos de datos de razonamiento matemático como MATH. Según los investigadores, este conjunto de datos está reconocido como el más complejo de los problemas matemáticos.

Descubrieron que GPT4-Code superaba significativamente a GPT-4, alcanzando una precisión del 69,7% en MATH frente al 42,2% de GPT-4, y también superaba significativamente el rendimiento anterior del estado de la técnica, que era del 53,9%.

Utilizando diferentes indicaciones, el equipo introdujo distintas restricciones en la frecuencia de uso de código permitida en el Código GPT4 y descubrió «que su éxito puede atribuirse en gran medida a sus potentes habilidades para generar y ejecutar código, evaluar el resultado de la ejecución del código y rectificar su solución cuando recibe resultados poco razonables.»

Dos métodos mejoran enormemente las capacidades matemáticas del Intérprete de Código GPT-4

Basándose en estos hallazgos, los investigadores se propusieron mejorar aún más las capacidades matemáticas del Código GPT4 impulsando una ejecución más frecuente del código, ya que esto mejora el rendimiento, especialmente en los problemas más difíciles.

Propusieron dos métodos:

Autoverificación explícita basada en código
- Pide al Intérprete de Códigos GPT-4 que verifique su respuesta con el código. Si es incorrecta, seguirá intentándolo hasta que la verificación tenga éxito.
Verificación-Votación por Mayoría Ponderada Guiada
- Incorpora los resultados de la verificación a la votación por mayoría. Las respuestas verificadas como verdaderas reciben mayor peso, lo que refleja una mayor confianza.

El interprete de codigo GPT 4 pulveriza los parametros matematicos y 2023-08-19 15:08:29 — Bild: Zhou, Wang, Lu, Shi, Luo et al.

Los experimentos demostraron que estos métodos mejoraban la precisión de MATH hasta el 84,3%, superando el 69,7% de GPT4-Code. La clave estaba en explotar sus capacidades de autoverificación mediante un mayor uso del código.

Los métodos podrían producir conjuntos de datos más precisos para modelos de código abierto como LLaMA 2

Los investigadores también evaluaron su técnica en la prueba de referencia MMLU para problemas matemáticos y científicos. Una vez más, mejoró la precisión del intérprete de código GPT-4 en todos los conjuntos de datos, lo que demuestra su amplia aplicabilidad.

El equipo quiere ahora aplicar sus hallazgos sobre el importante papel de la frecuencia de uso del código y sus dos métodos a otros LLM fuera de GPT-4. También planean utilizarlos para crear conjuntos de datos más precisos que incluyan «la generación de soluciones detalladas paso a paso basadas en código y la validación basada en código, lo que podría ayudar a mejorar los LLM de código abierto como LLaMA 2».

El intérprete de código GPT-4 pulveriza los parámetros matemáticos y alcanza un nuevo SOTA

Dos métodos mejoran enormemente las capacidades matemáticas del Intérprete de Código GPT-4

Los métodos podrían producir conjuntos de datos más precisos para modelos de código abierto como LLaMA 2

La moderación de contenidos podría experimentar una rápida transformación con GPT-4

La herramienta de inteligencia artificial de Wayfair puede rediseñar tu sala y venderte muebles

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta