La compañía de inteligencia artificial Anthropic ha lanzado una novedosa tabla de clasificación llamada Open CoT Leaderboard (Ranking de Líderes en Razonamiento en Cadena de Pensamiento Abierta). Esta iniciativa tiene como objetivo evaluar la capacidad de los Modelos de Lenguaje Grandes (LLM) para generar trazos de razonamiento efectivos utilizando la técnica de prompting en cadena de pensamiento (CoT).
¿Por qué una tabla de clasificación para el prompting en cadena de pensamiento?
El prompting en cadena de pensamiento es una estrategia de prompting aplicable a diversos escenarios, que puede mejorar la explicabilidad y precisión de las aplicaciones y agentes basados en LLM. A diferencia de las tablas de clasificación tradicionales centradas en la precisión, la Open CoT Leaderboard mide la diferencia entre la precisión con y sin el uso de CoT, lo que permite inspeccionar verdaderamente el impacto de esta técnica.
Anthropic destaca que una comparación sistemática y actualizada de la capacidad de los LLM para generar trazos efectivos de pensamiento en cadena puede informar las decisiones de constructores y usuarios al elegir un modelo. Además, esta evaluación es más robusta frente a la contaminación de datos de entrenamiento, ya que saber la respuesta a una pregunta no garantiza que se pueda razonar eficazmente sobre ella.
Tareas evaluadas
La Open CoT Leaderboard evalúa la capacidad de los LLM para generar trazos de razonamiento efectivos en cadena de pensamiento para varias tareas, incluyendo LogiQA, PiQA, LSAT, QNLI y OBLIQUE. Estas tareas forman parte del benchmark AGIEval y logikon-bench, y han sido seleccionadas por su naturaleza genérica, que requiere razonamiento y conocimientos comunes, pero aún representan un desafío para los LLM más potentes.
Generación de trazos de razonamiento en cadena de pensamiento
La compañía ha implementado dos estrategias de prompting sencillas: «Clásico», donde se presenta el problema seguido de la instrucción «Pensemos paso a paso», y «Reflexionar», donde se pide reflexionar sobre el problema en términos generales antes de resolverlo paso a paso.
Cada estrategia se combina y ejecuta con múltiples parámetros de decodificación, dando lugar a seis «regímenes de generación de CoT». Cuando se evalúa un modelo, se le permite generar un trazo de pensamiento en cadena para cada ejemplo en los conjuntos de datos de prueba, bajo cada régimen. Se informa la mejor ganancia de precisión marginal lograda bajo cualquier régimen.
Principales conclusiones hasta ahora
Aunque la Open CoT Leaderboard se encuentra en etapas iniciales, con 30 modelos evaluados, Anthropic ha compartido algunas conclusiones interesantes:
- Los LLM abiertos relativamente pequeños (7B) son capaces de razonamiento efectivo en cadena de pensamiento, a veces mejorando la precisión a una tasa mejor que los modelos más grandes.
- Los modelos afinados para instrucciones y chat puntúan mucho mejor que sus modelos base correspondientes, mejorando tanto la precisión base sin CoT como las ganancias de precisión marginales logradas a través de CoT.
- No hay un régimen de generación de CoT preferido o superior. Lo que funciona mejor para un modelo y una tarea puede no funcionar para otro modelo o tarea. En algunos casos, CoT reduce la precisión en lugar de aumentarla.
Próximos pasos y contribuciones
Anthropic planea avanzar en diferentes direcciones y alienta las contribuciones de la comunidad:
- Evaluación de nuevos modelos LLM abiertos mediante el envío al espacio Open CoT Leaderboard.
- Análisis en profundidad de los resultados de la evaluación completa, incluyendo un análisis cualitativo de los trazos de CoT generados.
- Creación de un Tablero Open CoT interactivo que complemente la tabla de clasificación con información adicional.
- Implementación de más regímenes de generación de CoT, como autoconsistencia, árbol de pensamiento, autoverificación o debate.
- Inclusión de más tareas de razonamiento desafiantes en la Open CoT Leaderboard.
La compañía invita a la comunidad a ponerse en contacto si están interesados en colaborar en cualquiera de estos esfuerzos.