
2023-08-28
Giraffe es un LLM de código abierto con una ventana de contexto de 32.000 tokens, lo que lo hace útil para muchas aplicaciones en contextos empresariales.
Los grandes modelos lingüísticos como GPT-4 muestran capacidades impresionantes, pero a menudo tienen una ventana de contexto limitada, lo que limita su uso en tareas en las que tendrían que procesar docenas de páginas. Variantes como GPT-4-32k o Claude de Anthropic con una ventana de contexto de 100.000 tokens proporcionan una «memoria» mucho mayor y, por tanto, son más potentes en esos casos de uso.
Ahora, los investigadores han ampliado la ventana de contexto del modelo LLaMA de código abierto hasta 10 veces utilizando técnicas de interpolación que alcanzan unos 32.000 tokens. El LLM resultante, llamado Giraffe, viene en una versión de 13.000 millones de parámetros y tiene una de las ventanas de contexto más grandes de cualquier LLM de código abierto.
Giraffe, de código abierto, proporciona información sobre el escalado de ventanas de contexto
Al ser de código abierto, la investigación también proporciona información importante sobre el funcionamiento interno de los LLM y las distintas técnicas de escalado para ampliar la ventana de contexto. Según el equipo de Abacus.AI, el escalado Liner de las incrustaciones de posición fue el más eficaz para aumentar la longitud del contexto, aunque otros también tuvieron algún efecto.
También descubrieron que la precisión en tareas de contexto largo disminuía al aumentar la longitud, lo que demuestra las limitaciones de las técnicas actuales, y mostraron que la perplejidad, utilizada habitualmente para medir el rendimiento de LLM, por sí sola es insuficiente para medir el rendimiento en contextos largos, lo que subraya la necesidad de realizar pruebas personalizadas.
Hay más información y datos disponibles en proyecto GitHubcon el El modelo Giraffe-v2-13b-32k está alojado en Hugging Face.