
Puntos Clave:
- Los modelos lingüísticos enfrentan dificultades para responder preguntas financieras de manera precisa.
- Según un estudio, los modelos como GPT-4 Turbo o Claude 2 de OpenAI tienen baja precisión al responder preguntas sobre informes financieros de empresas.
- El desarrollo de la IA Patronus dedica pruebas exhaustivas a través de FinanceBench, un conjunto de datos con más de 10,000 preguntas y respuestas de informes SEC.
- Los modelos de IA necesitan mejoras significativas para ser utilizados de manera efectiva en el sector financiero.
Los problemas de los modelos lingüísticos en el ámbito financiero
Un nuevo estudio revela que los grandes modelos lingüísticos, como GPT-4 Turbo o Claude 2 de OpenAI, a menudo no pueden responder preguntas precisamente relacionadas con datos financieros, como las declaraciones de la SEC. Esto representa un desafío para su implementación en los procesos financieros y de atención al cliente.
Falta de precisión en los modelos probados
Los investigadores de Patronus AI probaron varios modelos lingüísticos para responder preguntas sobre informes financieros de empresas. Los resultados mostraron que el mejor modelo, GPT-4 Turbo, solo logró un 79% de precisión en la prueba, a pesar de incluir casi todo el informe en la pregunta.
Además, los modelos a menudo rechazaban responder las preguntas o generaban datos y cifras que no estaban presentes en los informes de la SEC. Esto plantea serias dudas sobre su fiabilidad en aplicaciones automatizadas y listas para la producción en el sector financiero, según Anand Kannappan, cofundador de Patronus AI.
FinaceBench y el potencial de la IA en el sector financiero
El desarrollo de la IA Patronus incluye la creación de FinanceBench, un conjunto de datos compuesto por más de 10,000 preguntas y respuestas de los informes SEC de empresas públicas. Este conjunto de datos proporciona respuestas correctas, así como su ubicación exacta en los informes, y cubre una variedad de preguntas que requieren razonamiento matemático o lógico.
A pesar de los retos actuales, los investigadores creen que los modelos de IA tienen un gran potencial para contribuir al sector financiero, aunque aún se requieren mejoras significativas. Sin embargo, persiste la incógnita sobre si los enfoques propuestos pueden resolver el problema en general o solo en escenarios específicos.
Desafíos persistentes en los modelos lingüísticos
Los modelos lingüísticos con grandes ventanas de contexto enfrentan dificultades para extraer información de manera fiable, especialmente en textos largos, lo que se conoce como «lost in the middle». Ante esta problemática, Anthropic ha desarrollado un método para abordar la «pérdida en el medio» de su modelo de IA Claude 2.1, con resultados aún por determinar en términos de su aplicabilidad en diferentes tareas y su capacidad para mejorar otros modelos lingüísticos modernos.