Puntos Claves:
- Mixtral 8x7B es el modelo lingüístico más avanzado de Mistral AI y se posiciona como el mejor LLM de código abierto, superando a GPT-3.5.
- El modelo se destaca por su eficiencia en el uso de parámetros y por ofrecer resultados rápidos, precisos y menos sesgados.
- Mixtral también incluye una variante optimizada para instrucciones precisas llamada Mixtral 8x7B Instruct, siendo esta relevante en el contexto de la generación de lenguaje natural.
El Ascenso de Mixtral 8x7B en la Inteligencia Artificial Lingüística
Mistral AI ha marcado un hito con su más reciente modelo Mixtral 8x7B, considerado el modelo de lenguaje de código abierto superior al presente GPT-3.5. Este avance ha sido respaldado por documentación detallada y tests de rendimiento que evidencian su superioridad.
Al analizar la prueba de comprensión lingüística MMLU, Mixtral se destaca sobre LLaMA 2 70B y GPT-3.5, con logros similares a modelos más extensos como Gemini Ultra y GPT-4, que exhiben resultados entre el 85 y el 90 percentil. Además, en el ranking de Clasificación LMSys, que evalúa las respuestas de IA basándose en la opinión de usuarios humanos, Mixtral 8x7b supera a competidores como Claude 2.1 y Gemini Pro de Google, aunque GPT-4 sigue siendo el líder.
Las organizaciones continuamente logran igualar o incluso sobrepasar el estándar de GPT-3.5, pero GPT-4 sigue sin ser superado. No obstante, Mistral ha propuesto un modelo con un uso más eficiente de recursos, que podría cambiar el panorama actual.
Detalles Técnicos y Avances de Mixtral 8x7B
Mistral AI ha compartido que Mixtral es un modelo Sparse Mixture of Experts (SMoE), con parámetros abiertos bajo la licencia Apache 2.0. Este enfoque es rumoreado ser similar al empleado por OpenAI en el desarrollo de GPT-4. A través de una arquitectura de selección de parámetros inteligente, Mixtral utiliza únicamente una parte de sus 45.000 millones de parámetros por inferencia, específicamente 12.000 millones por token, con lo cual se reducen significativamente el costo y la latencia.
El modelo no solo reveló ser seis veces más rápido que LLaMA 2 70B de Meta, sino que también se presenta como más confiable y menos propenso a sesgos. En medidas estándar de rendimiento, Mixtral alcanza o supera al GPT-3.5 de OpenAI. Además, maneja hasta 32.000 token contexts y es multilingüe, con soporte para inglés, francés, italiano, alemán y español, y posee capacidades de escritura de código.
Mixtral 8x7B Instruct: Afinado para la Precisión
La versión especializada Mixtral 8x7B Instruct ha sido adaptada para responder con alta precisión gracias a técnicas de afinamiento supervisado y Direct Preference Optimization (OPD). Registrando una puntuación sobresaliente en MT-Bench, se posiciona como el modelo más competente de su clase, rivalizando con GPT-3.5 en desempeño.
La edición beta de Mixtral está disponible en la plataforma de Mistral, donde usuarios también pueden acceder al modelo Mistral 7B y un prototipo aún más avanzado que promete superar las capacidades del GPT-3.5. El progreso constante en esta área evidencia que Mistral está trazando un nuevo camino en la evolución de los modelos de lenguaje natural.