2023-09-08 19:35:58
Puede que el gran equipo de modelos lingüísticos de Apple sea pequeño, con 16 personas, pero tiene un gran presupuesto: al parecer, cada día se destinan millones de dólares a la formación en IA.
Así lo informa The Information, citando a una persona con conocimiento directo del desarrollo de IA de Apple. El llamado equipo «Foundational Models» está dirigido por el ingeniero de IA John Giannandrea, a quien Apple echó de Google en la primavera de 2018 y ascendió a la junta directiva el invierno siguiente.
Según los informes, el equipo se centra en la IA conversacional, similar a ChatGPT. Se dice que el LLM «Ajax GPT» filtrado anteriormente es más potente que el GPT-3.5 de OpenAI, con más de 200 mil millones de parámetros.
Pero eso seguiría siendo bastante menos que los 1,8 billones de parámetros de GPT-4, incluso si esos parámetros se distribuyen entre 16 modelos expertos en red. Según el informe, Ajax GPT se desarrolló exclusivamente para uso interno.
Para los usuarios finales, los beneficios de la investigación LLM llegarán en forma de comandos de voz más precisos para el iPhone. El equipo de Siri planea implementar comandos de voz basados en LLM que pueden ser mucho más complejos que los comandos de voz predefinidos.
Por ejemplo, Apple está planeando una función de voz que permitirá enviar GIFs mediante comandos de voz a través de la aplicación Atajos de Apple, que puede utilizarse para programar secuencias de aplicaciones. Se espera que esta función llegue con una nueva versión de iOS el año que viene.
Apple explora todas las áreas de la IA generativa
Además del equipo LLM, otros equipos trabajan en visión por ordenador, una tecnología básica para Vision Pro de Apple, y en IA generativa para imágenes, vídeo y escenas 3D. En el pasado, los investigadores de Apple demostraron GAUDI, una IA generativa para la conversión de texto en escenas tridimensionales en interiores.
Apple cuenta con «al menos otros dos equipos relativamente nuevos» que desarrollan modelos de lenguaje e imagen, según The Information. Al parecer, la empresa también está trabajando en modelos multimodales para texto, imágenes y vídeo. Sin embargo, se trata de un proyecto de investigación a largo plazo.