2023-12-11 15:35:24
GPT-4 y otros modelos se basan en transformadores. Con StripedHyena, los investigadores presentan una alternativa a la arquitectura ampliamente utilizada.
Con StripedHyena, el equipo de Together AI presenta una familia de modelos lingüísticos con 7.000 millones de parámetros. Lo que la hace especial: StripedHyena utiliza un nuevo conjunto de arquitecturas de IA cuyo objetivo es mejorar el rendimiento de la formación y la inferencia en comparación con la arquitectura de transformadores ampliamente utilizada, empleada por ejemplo en GPT-4.
La versión incluye StripedHyena-Hessian-7B (SH 7B), un modelo base, y StripedHyena-Nous-7B (SH-N 7B), un modelo de chat. Estos modelos están diseñados para ser más rápidos, más eficientes en el uso de la memoria y capaces de procesar contextos muy largos de hasta 128.000 tokens. Han participado investigadores de HazyResearch, hessian.AI, Nous Research, MILA, HuggingFace y el Centro Alemán de Investigación en Inteligencia Artificial (DFKI).
StripedHyena: una alternativa eficaz a los transformadores
Según Together AI, StripedHyena es el primer modelo alternativo que puede competir con los mejores transformadores de código abierto. El modelo base alcanza un rendimiento comparable al de Llama-2, Yi y Mistral 7B en las tareas de clasificación de OpenLLM y los supera en el resumen de contextos largos.
El componente central de los modelos StripedHyena es una capa de modelo de estado-espacio (SSM). Tradicionalmente, SSM se han utilizado para modelar secuencias complejas y datos de series temporales. Son especialmente útiles para tareas en las que es necesario modelar dependencias temporales. En los últimos dos años, sin embargo, los investigadores han desarrollado formas cada vez mejores de utilizar los SSM para modelos de secuencias para el lenguaje y otros dominios. La razón: requieren menos potencia de cálculo.
El resultado: StripedHyena es más de un 30%, 50% y 100% más rápido que los transformadores convencionales en el entrenamiento de extremo a extremo de secuencias de 32.000, 64.000 y 128.000 tokens.
El principal objetivo de los modelos StripedHyena es ampliar los límites del diseño arquitectónico más allá de los transformadores. En el futuro, los investigadores planean investigar modelos más amplios con contextos más largos, soporte multimodal, más optimizaciones de rendimiento y la integración de StripedHyena en cadenas de recuperación para aprovechar al máximo el contexto más largo.