Puntos Claves:
- La aparición de un modelo de IA de Mistral, «miqu-1-70b», en fuentes de código abierto ha suscitado una considerable atención por su alto rendimiento, comparado con otros modelos líderes en la industria.
- El CEO de Mistral confirmó que el modelo «miqu-1-70b» es una versión más antigua y que fue filtrada accidentalmente por un cliente con exceso de entusiasmo.
- La empresa no solicitará la retirada del modelo de HuggingFace y señala avances significativos en los modelos más recientes de Mistral.
Descubrimiento Inesperado de un Poderoso Modelo de IA
Recientemente, la comunidad de código abierto ha sido testigo del impacto de un novísimo modelo de inteligencia artificial: «miqu-1-70b». Este software emergió sorpresivamente en plataformas de intercambio de modelo de IA como HuggingFace y posteriormente en foros como 4chan, donde fue expuesto por primera vez por un usuario bajo el pseudónimo «Miqu Dev». Este suceso elevó la curiosidad dentro de la comunidad tech, que notó un rendimiento excelente en las primeras pruebas, equiparando e incluso superando al más potente de los desarrollos previos de Mistral.
Orígenes del Modelo MIQU-1-70B
La intriga suscitó diversas conjeturas, hasta que Arthur Mensch, CEO de Mistral, reveló la verdad detrás del modelo: Una filtración circunstancial ocasionada por un individuo de una empresa asociada con acceso anticipado. Este modelo es, de hecho, un derivado de Llama 2 de Meta, reflejando la tecnología anterior de Mistral. Pese a su antigüedad, el modelo demostró ser altamente competitivo, poniéndose a la par de los desarrollos más recientes en el campo del procesamiento del lenguaje natural.
Mistral, aunque no desea atraer el modelo de vuelta ni ejercer acciones legales, deja en el aire la posibilidad de un lanzamiento oficial del modelo bajo ciertas licencias. La actitud de Mensch hacia este incidente refleja un enfoque relajado y astuto, sugiriendo en un tono de humor que se atribuya el modelo al creador de manera oficial.
Con miras al futuro, Mistral anticipa poder competir abiertamente con modelos a la talla de GPT-4, gracias a su última innovación, Mistral-Large, que promete marcar un hito en la inteligencia artificial de última generación.
Qué ha pasado con la filtracioón de la IA Mistral
En los últimos días ha sido un torbellino para la creciente comunidad de inteligencia artificial de código abierto, incluso según sus estándares rápidos e informales.
La rápida cronología es la siguiente: alrededor del 28 de enero, un usuario con el nombre de «Miqu Dev» publicó un conjunto de archivos en HuggingFace, la plataforma líder de modelos de inteligencia artificial y compartición de código de código abierto, que en conjunto formaban un nuevo modelo de lenguaje grande (LLM) de código abierto aparentemente nuevo llamado «miqu-1-70b».
La entrada de HuggingFace, que aún está disponible en el momento de la publicación de este artículo, señalaba que el «formato de instrucción» del nuevo LLM era el mismo que el de Mistral, la bien financiada empresa de inteligencia artificial parisina de código abierto detrás de Mixtral 8x7b, considerada por muchos como el LLM de código abierto de mejor rendimiento actualmente disponible, una versión ajustada y reentrenada del Llama 2 de Meta.
Publicado en 4chan
El mismo día, un usuario anónimo en 4chan (posiblemente «Miqu Dev») publicó un enlace a los archivos miqu-1-70b en 4chan, el notoriamente duradero refugio de memes y toxicidad en línea, donde los usuarios comenzaron a notarlo.
2024-02-02 11:38:10
En los últimos días ha sido un torbellino para la creciente comunidad de inteligencia artificial de código abierto, incluso según sus estándares rápidos e informales.
La rápida cronología es la siguiente: alrededor del 28 de enero, un usuario con el nombre de «Miqu Dev» publicó un conjunto de archivos en HuggingFace, la plataforma líder de modelos de inteligencia artificial y compartición de código de código abierto, que en conjunto formaban un nuevo modelo de lenguaje grande (LLM) de código abierto aparentemente nuevo llamado «miqu-1-70b».
La entrada de HuggingFace, que aún está disponible en el momento de la publicación de este artículo, señalaba que el «formato de instrucción» del nuevo LLM era el mismo que el de Mistral, la bien financiada empresa de inteligencia artificial parisina de código abierto detrás de Mixtral 8x7b, considerada por muchos como el LLM de código abierto de mejor rendimiento actualmente disponible, una versión ajustada y reentrenada del Llama 2 de Meta.
Publicado en 4chan
El mismo día, un usuario anónimo en 4chan (posiblemente «Miqu Dev») publicó un enlace a los archivos miqu-1-70b en 4chan, el notoriamente duradero refugio de memes y toxicidad en línea, donde los usuarios comenzaron a notarlo.
Evento VB
El AI Impact Tour – NYC
Estará en Nueva York el 29 de febrero en asociación con Microsoft para discutir cómo equilibrar los riesgos y recompensas de las aplicaciones de inteligencia artificial. Solicite una invitación al evento exclusivo a continuación.
Solicitar una invitación
Algunos recurrieron a X, la red social de Elon Musk antes conocida como Twitter, para compartir el descubrimiento del modelo y lo que parecía ser su rendimiento excepcionalmente alto en tareas comunes de LLM (medido por pruebas conocidas como benchmarks), acercándose al líder anterior, GPT-4 de OpenAI en EQ-Bench.
Lo que sea que sea Miqu, tiene alguna clase de ingrediente especial. Obtiene un 83.5 en EQ-Bench, superando *todos los demás LLM en el mundo excepto GPT-4*. EQ-Bench tiene una correlación de 0.97 con MMLU, y una correlación de 0.94 con Arena Elo. *Supera* a Mistral Medium – en Q4_K_M. Yo… pic.com/0gOOPjxjPD -N8 Programs (31 de enero de 2024
Puede que sea tarde, pero ahora estoy 100% convencido de que Miqu es el mismo modelo que es accesible como Mistral-Medium en Perplexity Labs. Era plausible que conociera rompecabezas estándar, pero no hay forma de que un bromista lo haya sintonizado para enunciar de manera idéntica las respuestas en ruso también. pic.com/zZMcpspXch – Teortaxes▶️ (31 de enero de 2024
Mistral cuantificado
Los investigadores de aprendizaje automático (ML) también lo notaron en LinkedIn.
«¿‘miqu’ significa MIstral QUantized? No lo sabemos con certeza, pero esto rápidamente se convirtió en uno, si no el mejor LLM de código abierto,» escribió Maxime Labonne, un científico de ML de JP Morgan Chase, una de las empresas bancarias y financieras más grandes del mundo. «Gracias a @152334H, ahora también tenemos una buena versión no cuantificada de miqu aquí: https://lnkd.in/g8XzhGSM
La investigación continúa. Mientras tanto, es posible que veamos versiones ajustadas de miqu superando a GPT-4 muy pronto.«
La cuantificación en ML se refiere a una técnica utilizada para hacer posible ejecutar ciertos modelos de inteligencia artificial en computadoras y chips menos potentes mediante la sustitución de secuencias numéricas largas específicas en la arquitectura de un modelo por otras más cortas.
Los usuarios especularon que «Miqu» podría ser un nuevo modelo lstra hecho por Mistral que se filtró secretamente por la propia empresa al mundo, especialmente porque Mistral es conocida por lanzar nuevos modelos y actualizaciones sin hacer alarde a través de medios esotéricos y técnicos, o tal vez un empleado o cliente que se volvió traidor.
Confirmación desde arriba
Hoy, finalmente, tenemos confirmación de un incidente en Mistral. Arthur Mensch, cofundador y CEO de la compañía, explicó que un empleado entusiasta de uno de nuestros clientes de acceso temprano filtró una versión cuantizada y marcada de un modelo antiguo que habíamos entrenado y distribuido de manera abierta en el pasado.
Para resolver esta situación, decidimos reentrenar el modelo desde Llama 2 en el momento en que obtuvimos acceso a todo nuestro clúster de recursos. El proceso de preentrenamiento se completó el mismo día en que lanzamos Mistral 7B. Desde entonces, hemos progresado de manera constante en este proyecto. ¡Manténganse atentos para conocer más detalles y novedades!
― Arthur Mensch (31 de enero de 2024
De manera hilarante, Mensch también parece haber acudido a la publicación ilícita de HuggingFace no para exigir una eliminación, sino para dejar un comentario de que el publicador «debería considerar la atribución.»
Aún así, con la nota de Mensch de «¡manténganse atentos!», parece que Mistral está entrenando una versión de este supuesto modelo «Miqu» que se acerca al rendimiento nivel GPT-4, e incluso podría igualarlo o superarlo, si se interpretan generosamente sus comentarios.
Un momento crucial en la inteligencia artificial de código abierto y más allá?
Eso sería un momento crucial no solo para la inteligencia artificial generativa de código abierto, sino para todo el campo de la inteligencia artificial y la informática: desde su lanzamiento en marzo de 2023, GPT-4 ha sido el LLM más potente y de mayor rendimiento en el mundo por la mayoría de los benchmarks. Ni siquiera ninguno de los modelos Gemini de Google disponibles actualmente, y rumoreados durante mucho tiempo, han podido superarlo, aún (según algunas medidas, los modelos Gemini actuales son incluso peores que el modelo anterior de OpenAI, GPT-3.5).
El lanzamiento de un modelo GPT-4 de código abierto, que presumiblemente sería gratuito para su uso, podría generar una fuerte competencia para OpenAI y sus niveles de suscripción. Esto se vuelve aún más relevante ya que cada vez más empresas buscan modelos de código abierto o una combinación de código abierto y cerrado para impulsar sus aplicaciones, según lo informado recientemente por Matt Marshall, fundador y CEO de VentureBeat. Aunque OpenAI podría mantener su ventaja con GPT-4 Turbo y GPT-4V (visión), el mensaje es claro: la comunidad de inteligencia artificial de código abierto avanza rápidamente. La pregunta es si OpenAI tendrá una ventaja inicial suficiente y un «foso» metafórico con su GPT Store y otras características para seguir liderando en el campo de los LLM.