2023-07-30 19:28:39
En cierto modo, los humanos y los grandes modelos lingüísticos parecen mostrar un comportamiento similar: responden especialmente bien a la información que se encuentra al principio o al final de un contenido. La información del medio tiende a perderse.
Investigadores de la Universidad de Stanford, la Universidad de California en Berkeley y Samaya AI han descubierto un efecto en los LLM que recuerda a la efecto de primacía/recencia conocido en humanos. Esto significa que las personas tienden a recordar el contenido al principio y al final de un enunciado. Es más probable que se pase por alto el contenido del medio.
Según el estudio, se produce un efecto similar con los grandes modelos lingüísticos: Cuando se les pide que recuperen información de una entrada, los modelos obtienen mejores resultados cuando la información se encuentra al principio o al final de la entrada.
Sin embargo, cuando la información relevante se encuentra en medio de la entrada, el rendimiento disminuye significativamente. Este descenso del rendimiento es especialmente pronunciado cuando se pide al modelo que responda a una pregunta que requiere que extraiga información de varios documentos, el equivalente a que un estudiante tenga que identificar información relevante de varios libros para responder a una pregunta de un examen.
Cuantas más entradas tenga que procesar simultáneamente el modelo, peor será su rendimiento. Esto podría suponer un problema en escenarios reales en los que es importante procesar grandes cantidades de información de forma simultánea y uniforme.
El resultado también sugiere que hay un límite a la eficacia con la que los grandes modelos lingüísticos pueden utilizar la información adicional, y que los «megapromptos» con instrucciones especialmente detalladas probablemente hagan más mal que bien.
¿Hasta qué punto son útiles los LLM con grandes ventanas de contexto?
El fenómeno «perdido en el medio» también ocurre con modelos específicamente diseñados para manejar muchos contextos, como GPT-4 32K o Claude con su ventana de contexto de 100K tokens.
Los investigadores probaron siete modelos de lenguaje abierto y cerrado, incluidos el nuevo GPT-3.5 16K y Claude 1.3 con 100K. Todos los modelos mostraron una curva en U más o menos pronunciada, dependiendo de la prueba, con mejor rendimiento en tareas en las que la solución está al principio o al final del texto.
Esto plantea la cuestión de la utilidad de los modelos con una ventana de contexto grande cuando se podrían obtener mejores resultados procesando el contexto en trozos más pequeños. El modelo líder actual, GPT-4, también muestra este efecto, pero con un nivel de rendimiento general superior.
El equipo de investigadores reconoce que aún no se sabe exactamente cómo procesan el lenguaje los modelos. Esta comprensión debe mejorarse mediante nuevos métodos de evaluación, y es posible que también se necesiten nuevas arquitecturas.
Según los investigadores, también es necesario estudiar cómo afecta el diseño de las instrucciones al rendimiento de los modelos. Hacer que los sistemas de IA sean más conscientes de la tarea que se les pide podría mejorar su capacidad de extraer información relevante.