2023-07-29 19:11:02
Con su nuevo modelo de lenguaje de gran tamaño Llama 2, Meta se posiciona como una alternativa de código abierto a OpenAI. Microsoft participa como socio.
Llama 2 ya está disponible gratuitamente para investigación y uso comercial, con hasta 700 millones de usuarios activos al mes. El modelo está disponible en tres tamaños, con 7.000, 13.000 y 70.000 millones de parámetros, y se ha entrenado con un 40% más de datos que Llama v1, según Meta.
La longitud del contexto, que es la cantidad máxima de datos disponibles en la memoria a corto plazo de la IA que el modelo puede procesar a la vez, es de 4096 tokens, el doble que su predecesor y a la par que ChatGPT utilizando GPT-3.5.
En comparación con Llama v1 y otros modelos de código abierto, Llama 2 muestra un mejor rendimiento en todas las pruebas. Especialmente en la importante prueba comparativa Massive Multi-Task Language Understanding (MMLU), Llama supera claramente a su predecesor y a la competencia de código abierto.
En comparación con modelos de código cerrado como GPT-4 y PaLM-2, la propia Meta habla de «una gran diferencia de rendimiento». Sin embargo, el nivel GPT-3.5 de ChatGPT debería ser alcanzado por Llama-2 en la mayoría de los casos.
Para tareas de codificación, GPT-4 con intérprete de código o modelos especializados como Starcoder deberían estar por delante según los benchmarks.
Estos modelos [Llama 2] han demostrado su competitividad con los modelos de chat de código abierto existentes, así como una competencia equivalente a la de algunos modelos propietarios en los conjuntos de evaluación que hemos examinado, aunque siguen estando por detrás de otros modelos como GPT-4.
Del artículo
Según Meta, Llama 2 se entrenó utilizando fuentes de datos en línea de acceso público. El modelo de chat perfeccionado, Llama-2-chat, utiliza conjuntos de datos de entrenamiento disponibles públicamente y más de un millón de anotaciones humanas. Utilizando el mismo método, Reinforcement Learning from Human Feedback (RLHF), OpenAI también optimizó ChatGPT.
Meta pone a disposición los modelos para su descarga gratuita en el sitio web de Llama tras rellenar un formulario de registro. Cada descarga incluye el código del modelo, los pesos, el manual de usuario, la guía de uso responsable, las directrices de uso aceptable, la tarjeta del modelo y la licencia.
Una versión demo gratuita del modelo de chat con 7 y 13 mil millones de parámetros es disponible en este sitio web.
Meta se asocia con Microsoft
De forma un tanto sorprendente, Meta presenta el modelo Llama junto con Microsoft, el mayor inversor en OpenAI. Al parecer, Microsoft quiere posicionarse tanto en el espacio de código cerrado como en el de código abierto y poner los modelos a disposición de las empresas a través de su infraestructura Azure. Meta también ofrece Llama a través de Amazon Web Services, Hugging Face y otros proveedores.
Las dos empresas tienen una historia compartida de creación de ecosistemas abiertos de IA y de apoyo a PyTorch -un marco de IA codesarrollado por Meta- en Microsoft Azure, según el anuncio del modelo.
La colaboración también tiene como objetivo permitir experiencias inmersivas para el futuro del trabajo y los juegos en el metaverso. Microsoft anunció por primera vez el software de Office para los cascos de realidad virtual de Meta el pasado otoño.
Además, Meta hace hincapié en la importancia del uso responsable de la IA y proporciona recursos como ejercicios de red-teaming, un plan de transparencia, una guía de uso responsable y una política de uso aceptable para garantizar un uso justo y responsable de Llama 2.
Meta también está cubriendo su apuesta por el código abierto con una serie de avales de expertos que celebran la publicación del modelo, a pesar de los riesgos. «La innovación responsable y abierta nos da a todos una participación en el proceso de desarrollo de la IA, aportando visibilidad, escrutinio y confianza a estas tecnologías. La apertura de los modelos actuales de Llama permitirá que todo el mundo se beneficie de esta tecnología», reza el comunicado.
El jefe de IA de Meta, Yann LeCun, es uno de los investigadores más reputados en el campo de la inteligencia artificial, celebra el lanzamiento de Llama 2 en Twitter, diciendo: «Esto va a cambiar el panorama del mercado LLM».
El comunicado confirma algunos rumores de las últimas semanas, como que Llama v2 es comercialmente viable y se espera que frene el crecimiento de OpenAI. La propia Meta podría colocarse en una posición estratégicamente interesante aprovechando el movimiento de código abierto para su ecosistema de IA.