La mejor funci贸n Claude 2.1 de Anthropic corre la misma suerte que GPT-4 Turbo

A帽adir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuaci贸n+1

2023-11-24 17:47:30

Al igual que OpenAI con GPT-4 Turbo, Anthropic anuncia su nuevo chatbot Claude 2.1 como capaz de procesar grandes cantidades de texto a la vez. Sin embargo, al igual que con Turbo, esto funciona bastante mal.

Las grandes ventanas contextuales del GPT-4 Turbo de OpenAI y del reci茅n presentado modelo Claude 2.1 de Anthropic pueden procesar y analizar un gran n煤mero de tokens (frases y palabras) simult谩neamente. GPT-4 Turbo puede manejar hasta 128.000 tokens (unas 100.000 palabras), Claude 2.1 hasta 200.000 tokens (unas 150.000 palabras).

Sin embargo, ambos modelos adolecen del fen贸meno 芦lost in the middle禄: la informaci贸n situada en el centro y cerca de la parte superior e inferior de un documento suele ser ignorada por el modelo.

La extracci贸n de informaci贸n s贸lo funciona de forma fiable al principio o al final de un documento

Greg Kamradt realiz贸 las mismas pruebas con la ventana contextual de Claude 2.1 que con GPT-4 Turbo cargando los ensayos de Paul Graham en el sistema y colocando declaraciones en varios lugares del documento. Despu茅s intent贸 extraer estas afirmaciones y evalu贸 el rendimiento de Claude 2.1 con GPT-4.

Los resultados muestran que Claude 2.1 fue capaz de extraer hechos al principio y al final de un documento con una precisi贸n de casi el 100% para 35 consultas.

Sin embargo, el rendimiento del modelo desciende bruscamente por encima de los 90.000 tokens, especialmente en el caso de la informaci贸n situada en la parte central e inferior del documento. Al observar estos resultados, parece que la recuperaci贸n de informaci贸n es tan poco fiable para ventanas de contexto m谩s grandes que es b谩sicamente in煤til en todos los casos en los que la fiabilidad es importante. La degradaci贸n del rendimiento comienza muy pronto, en torno a los 24.000 de 200.000 tokens.

Las ventanas de contexto grandes distan mucho de ser fiables

El resultado de la prueba es similar al de GPT-4 Turbo de OpenAI, que Kamradt y otros hab铆an probado anteriormente. Sin embargo, GPT-4 Turbo obtuvo mejores resultados que Claude 2.1 en el mismo procedimiento de prueba, aunque tambi茅n tiene una ventana de contexto m谩s peque帽a.

La mejor funcion Claude 21 de Anthropic corre la misma 2023-11-24 17:47:30
Imagen: Greg Kamradt

En 煤ltima instancia, la conclusi贸n es la misma: no est谩 garantizado que los hechos de los documentos de gran tama帽o se encuentren en ventanas de contexto amplias, y la ubicaci贸n de la informaci贸n dentro de un documento desempe帽a un papel importante en la recuperaci贸n precisa.

Por tanto, las ventanas de contexto grandes no sustituyen a las bases de datos vectoriales, m谩s baratas y precisas, y reducir el tama帽o de la informaci贸n que se pone en la ventana de contexto aumenta la precisi贸n.

Si la recuperaci贸n precisa es importante para tu caso de uso, es mejor procesar la informaci贸n con modelos ling眉铆sticos en unidades m谩s peque帽as de 8k a 16k, aunque puedas poner 200k, o simplemente utilizar bases de datos vectoriales o incrustaciones de b煤squeda si est谩s creando una aplicaci贸n de IA.

Deja una opini贸n

Deje una respuesta

馃 AI MAFIA
Logo