2023-11-24 17:47:30
Al igual que OpenAI con GPT-4 Turbo, Anthropic anuncia su nuevo chatbot Claude 2.1 como capaz de procesar grandes cantidades de texto a la vez. Sin embargo, al igual que con Turbo, esto funciona bastante mal.
Las grandes ventanas contextuales del GPT-4 Turbo de OpenAI y del recién presentado modelo Claude 2.1 de Anthropic pueden procesar y analizar un gran número de tokens (frases y palabras) simultáneamente. GPT-4 Turbo puede manejar hasta 128.000 tokens (unas 100.000 palabras), Claude 2.1 hasta 200.000 tokens (unas 150.000 palabras).
Sin embargo, ambos modelos adolecen del fenómeno «lost in the middle»: la información situada en el centro y cerca de la parte superior e inferior de un documento suele ser ignorada por el modelo.
La extracción de información sólo funciona de forma fiable al principio o al final de un documento
Greg Kamradt realizó las mismas pruebas con la ventana contextual de Claude 2.1 que con GPT-4 Turbo cargando los ensayos de Paul Graham en el sistema y colocando declaraciones en varios lugares del documento. Después intentó extraer estas afirmaciones y evaluó el rendimiento de Claude 2.1 con GPT-4.
Los resultados muestran que Claude 2.1 fue capaz de extraer hechos al principio y al final de un documento con una precisión de casi el 100% para 35 consultas.
Sin embargo, el rendimiento del modelo desciende bruscamente por encima de los 90.000 tokens, especialmente en el caso de la información situada en la parte central e inferior del documento. Al observar estos resultados, parece que la recuperación de información es tan poco fiable para ventanas de contexto más grandes que es básicamente inútil en todos los casos en los que la fiabilidad es importante. La degradación del rendimiento comienza muy pronto, en torno a los 24.000 de 200.000 tokens.
Las ventanas de contexto grandes distan mucho de ser fiables
El resultado de la prueba es similar al de GPT-4 Turbo de OpenAI, que Kamradt y otros habían probado anteriormente. Sin embargo, GPT-4 Turbo obtuvo mejores resultados que Claude 2.1 en el mismo procedimiento de prueba, aunque también tiene una ventana de contexto más pequeña.
En última instancia, la conclusión es la misma: no está garantizado que los hechos de los documentos de gran tamaño se encuentren en ventanas de contexto amplias, y la ubicación de la información dentro de un documento desempeña un papel importante en la recuperación precisa.
Por tanto, las ventanas de contexto grandes no sustituyen a las bases de datos vectoriales, más baratas y precisas, y reducir el tamaño de la información que se pone en la ventana de contexto aumenta la precisión.
Si la recuperación precisa es importante para tu caso de uso, es mejor procesar la información con modelos lingüísticos en unidades más pequeñas de 8k a 16k, aunque puedas poner 200k, o simplemente utilizar bases de datos vectoriales o incrustaciones de búsqueda si estás creando una aplicación de IA.