El diminuto pero poderoso Phi-2 de Microsoft muestra «mejoras espectaculares

2 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-11-22 14:44:43

Phi-2 es el último modelo de lenguaje pequeño de Microsoft y se dice que es significativamente mejor que sus predecesores. La empresa aloja ahora los modelos pequeños en Azure.

En junio, los investigadores de Microsoft presentaron Phi-1, un modelo de lenguaje basado en transformadores y optimizado para código con solo 1.300 millones de parámetros. El modelo se entrenó exclusivamente con datos de alta calidad y superó en pruebas comparativas a modelos hasta diez veces mayores.

Phi-1.5 le siguió unos meses después, también con 1.300 millones de parámetros y entrenado con datos adicionales consistentes en varios textos generados por IA. Phi-1.5 puede componer poemas, escribir correos electrónicos e historias y resumir textos. Una variante también puede analizar imágenes. En las pruebas de sentido común, comprensión del lenguaje y razonamiento, el modelo fue capaz en algunas áreas de seguir el ritmo de modelos con hasta 10.000 millones de parámetros.

Microsoft ha anunciado ahora Phi-2, que con 2.700 millones de parámetros es el doble de grande, pero sigue siendo diminuto comparado con otros modelos lingüísticos. En comparación con Phi-1.5, el modelo muestra mejoras espectaculares en razonamiento lógico y seguridad, según la empresa. Con el ajuste y la personalización adecuados, el pequeño modelo de lenguaje es una potente herramienta para aplicaciones en la nube y en los bordes, afirma la empresa.

El Phi-2 de Microsoft muestra mejoras en matemáticas y codificación

La compañía aún no ha publicado más detalles sobre el modelo, sin embargo, Sebastien Bubeck, jefe del Grupo de Fundamentos de Aprendizaje Automático de Microsoft Research, publicó en Twitter una captura de pantalla del benchmark «MT-Bench», que trata de poner a prueba las capacidades reales de los grandes -y pequeños- modelos lingüísticos con potentes modelos lingüísticos como el GPT-4.

Según los resultados, Phi-2 supera al modelo Llama-2-7B de Meta en algunas áreas. También se está preparando una versión de Phi-2 para chat, que podría subsanar algunos de los puntos débiles del modelo en estas áreas.

Microsoft anuncia «Modelos como servicio»

Phi-2 y Phi-1.5 ya están disponibles en el catálogo de modelos de Azure AI, junto con Stable Diffusion, Falcon, CLIP, Whisper V3, BLIP y SAM. Microsoft también está añadiendo Code Llama y Nemotron de Meta y Nvidia.

Microsoft también ha anunciado «Models as a Service»: «Los desarrolladores profesionales pronto podrá integrar fácilmente los últimos modelos de IA, como Llama 2 de MetaCommand de Cohere, Jais de G42 y los modelos premium de Mistral como API en sus aplicaciones. También pueden ajustar estos modelos con sus propios datos sin tener que preocuparse de configurar y gestionar la infraestructura de GPU, lo que ayuda a eliminar la complejidad de aprovisionar recursos y gestionar el alojamiento.«