2023-09-07 11:29:48
Actualizado el 07 de septiembre de 2023:
El Instituto de Innovación Tecnológica lanza Falcon-180B, el modelo más grande de la serie Falcon. Está basado en Falcon 40B y se ha entrenado con 3,5 billones de tokens en hasta 4096 GPU simultáneamente a través de Amazon SageMaker para un total de ~7.000.000 de horas de GPU.
Se dice que Falcon 180B supera a Llama 2 70B, así como a GPT-3.5 de OpenAI. Dependiendo de la tarea, se estima que el rendimiento está entre GPT-3.5 y GPT-4, y a la par con el modelo de lenguaje PaLM 2 de Google en varias pruebas comparativas.
En el Clasificación del LLM de código abierto Hugging Face, Falcon 180B se sitúa actualmente justo por delante de Llama 2 de Meta. Pero comparado con Llama 2, Falcon180B requiere cuatro veces más computación para entrenarse, y el modelo es 2,5 veces mayor. Existe un modelo de chat perfeccionado.
Puedes encontrar un Falcon-180B demo y más información en Cara de abrazo. El uso comercial es posible, pero muy restrictivo. Debe tomar una detenidamente la licencia.
Artículo original del 29 de mayo de 2023:
El modelo lingüístico de código abierto FalconLM supera al LLaMA de Meta
El modelo lingüístico de código abierto FalconLM ofrece mejores prestaciones que el LLaMA de Meta y también puede utilizarse comercialmente. Pero su uso comercial está sujeto a derechos de autor si los ingresos superan el millón de dólares.
FalconLM está siendo desarrollado por el Technology Innovation Institute (TII) de Abu Dhabi (Emiratos Árabes Unidos). La organización afirma que FalconLM es el modelo lingüístico de código abierto más potente hasta la fecha, aunque la variante más grande, con 40.000 millones de parámetros, es significativamente menor que LLaMA de Meta, con 65.000 millones de parámetros.
En el Hugging Face OpenLLM Leaderboard, que resume los resultados de varias pruebas comparativas, los dos modelos más grandes de FalconLM, uno de los cuales se ha refinado con instrucciones, ocupan actualmente las dos primeras posiciones por un margen significativo. TII también ofrece un modelo de 7.000 millones.
FalconLM se entrena con más eficacia que GPT-3
Un aspecto importante de la ventaja competitiva de FalconLM, según el equipo de desarrollo, es la selección de datos para el entrenamiento. Los modelos lingüísticos son sensibles a la calidad de los datos durante el entrenamiento.
El equipo de investigación desarrolló un proceso para extraer datos de alta calidad del conocido conjunto de datos de rastreo común y eliminar los duplicados. A pesar de esta limpieza exhaustiva, quedaron cinco billones de fragmentos de texto (tokens), suficientes para entrenar potentes modelos lingüísticos. La ventana de contexto está en 2048 tokens, un poco por debajo del nivel ChatGPT.
FalconLM con 40.000 millones de parámetros se entrenó con un billón de tokens, el modelo con 7.000 millones de parámetros con 1,5 billones. Los datos del conjunto de datos RefinedWeb se enriquecieron con «unos cuantos» conjuntos de datos curados de artículos científicos y discusiones en medios sociales. La versión de instrucción con mejor rendimiento, la versión de chatbot, se ajustó con el método Conjunto de datos Baize.
El TII también menciona una arquitectura optimizada para el rendimiento y la eficiencia, pero no proporciona detalles. El documento aún no está disponible.
Según el equipo, la arquitectura optimizada combinada con el conjunto de datos de alta calidad dio como resultado que FalconLM requiriera sólo el 75 por ciento del esfuerzo computacional de GPT-3 durante el entrenamiento, pero superando significativamente al antiguo modelo OpenAI. Los costes de inferencia son una quinta parte de los de GPT-3.
Disponible como código abierto, pero su uso comercial puede resultar caro.
Los casos de uso que TII da a FalconLM incluyen la generación de textos, la resolución de problemas complejos, el uso del modelo como chatbot personal o en áreas comerciales como la atención al cliente o la traducción.
En las aplicaciones comerciales, sin embargo, TII quiere beneficiarse de un millón de dólares en ingresos que puedan atribuirse al modelo lingüístico: El diez por ciento de los ingresos se pagará en concepto de derechos de autor. Los interesados en el uso comercial deben ponerse en contacto con el departamento de ventas de TII. Para uso personal e investigación, FalconLM es gratuito.
Todas las versiones de los modelos FalconLM están disponibles para descarga gratuita desde Huggingface. Junto con los modelos, el equipo también está liberando una parte de los «RefinedWeb», un conjunto de datos de 600.000 millones de tokens de texto. como código abierto bajo licencia Apache 2.0. También se dice que el conjunto de datos está listo para la extensión multimodal, ya que los ejemplos ya incluyen enlaces y texto alternativo para las imágenes.