Puntos Clave:
1) La empresa Apple ha desarrollado un método para ejecutar LLMs en dispositivos con capacidad de DRAM limitada.
2) Este método implica almacenar los parámetros del modelo en la memoria flash y llevarlos a la DRAM según sea necesario.
3) Estas técnicas permiten ejecutar modelos hasta dos veces el tamaño de la DRAM disponible, con un aumento significativo en la velocidad de inferencia.
4) Apple tiene planes de integrar capacidades de inteligencia artificial generativa en iOS 18.
La empresa Apple ha publicado un artículo en el que describe un método para ejecutar LLMs en dispositivos con capacidad de DRAM limitada. Este método implica almacenar los parámetros del modelo en la memoria flash y llevarlos a la DRAM según sea necesario.
**Método de Apple para ejecutar LLMs en dispositivos con capacidad de DRAM limitada**
El método desarrollado por Apple implica la construcción de un modelo de costo de inferencia que se alinea con el comportamiento de la memoria flash. Esto guía los esfuerzos de optimización en dos áreas cruciales: reducir el volumen de datos transferidos desde la memoria flash y leer datos en grupos más grandes y contiguos.
Dentro de este marco informado por la memoria flash, Apple emplea dos técnicas principales. En primer lugar, la «ventaneo» reduce estratégicamente la transferencia de datos al reutilizar neuronas previamente activadas, y en segundo lugar, el «agrupamiento de filas y columnas», adaptado a las fortalezas de acceso secuencial de datos de la memoria flash, aumenta el tamaño de los grupos de datos leídos desde la memoria flash.
Estas técnicas permiten ejecutar modelos hasta dos veces el tamaño de la DRAM disponible, con un aumento de 4-5 veces y 20-25 veces en la velocidad de inferencia en comparación con los enfoques de carga ingenua en la CPU y la GPU, respectivamente.
**Impacto en el sistema operativo iOS 18 de Apple**
Esta investigación es significativa ya que Apple tiene planes de integrar capacidades de inteligencia artificial generativa en iOS 18. El nuevo sistema operativo aprovechará la tecnología de inteligencia artificial generativa para mejorar Siri y la aplicación Mensajes, permitiéndoles responder preguntas y completar automáticamente frases de manera más efectiva. Apple también está explorando el uso potencial de inteligencia artificial generativa en aplicaciones como Apple Music, Pages, Keynote y Xcode.
**Desarrollos en otras empresas**
Además de Apple, Samsung recientemente introdujo Gauss, su propio LLM en dispositivo. Según informes, se espera que Gauss se incorpore al próximo smartphone Galaxy S24, que se lanzará a principios de 2024. La compañía tiene la intención de integrar este modelo de lenguaje en sus dispositivos como teléfonos, computadoras portátiles y tabletas para mejorar las capacidades de sus dispositivos inteligentes.
Google también ha anunciado su LLM en dispositivo, llamado Gemini Nano, que se lanzará en los próximos teléfonos Google Pixel 8, ofreciendo capacidades como Resumir en la aplicación Grabadora y Respuesta Inteligente en Gboard.