2023-12-06 16:21:16
El largamente esperado modelo de IA Gemini Pro de Google debuta finalmente en Bard, aunque en una versión más pequeña con menos capacidades. Con Ultra, Google anuncia un modelo Gemini más grande para principios de 2024 que supuestamente superará al GPT-4 de OpenAI.
– Google presenta su nuevo modelo de IA Gemini. Gemini se presenta en tres tamaños: Nano para dispositivos móviles, Pro como competidor de GPT-3.5 y Ultra, diseñado para vencer a GPT-4.
– La versión Pro del chatbot Bard ya está disponible en inglés. Se supone que Gemini Pro supera a GPT-3.5 de OpenAI en seis de ocho pruebas de referencia.
– Google tiene previsto utilizar los modelos Gemini en otros productos como Search, Ads y Workspace. Por ejemplo, el modelo Nano se utilizará en el Pixel 8 Pro para generar resúmenes de notas de voz.
Según Google, Gemini Pro es un competidor del modelo de IA GPT-3.5 de OpenAI, que ya tiene un año. Se supone que supera al modelo de OpenAI en seis de ocho pruebas comparativas. Una versión aún más compacta, Nano (1,8B de parámetros y 3,25B de parámetros), está optimizada para el desarrollo de aplicaciones Android. Los modelos Nano se obtienen a partir de los modelos Gemini, de mayor tamaño.
El Pro y el Nano están disponibles a través de Google Cloud, y Google dice que se ejecutan en sus propios chips TPU AI. Google no especifica los parámetros de los modelos más grandes. Al igual que los LLM de otros proveedores, Google afirma que Gemini sigue luchando contra las alucinaciones.
Se espera que la versión más grande de Gemini, Ultra, supere al GPT-4 de OpenAI en pruebas de referencia populares para la comprensión de texto e imágenes y la generación de código. Ultra se lanzará a principios de 2024 y también se integrará en una versión «avanzada» del chatbot Bard (véase más adelante).
Los resultados de las pruebas de Google deben ser confirmados por terceros independientes. Más resultados de pruebas comparativas disponibles en Deepmind.
La evaluación de una amplia gama de puntos de referencia muestra que nuestro modelo Gemini Ultra, el más capaz, avanza el estado del arte en 30 de 32 de estos puntos de referencia, especialmente siendo el primer modelo en lograr un rendimiento humano-experto en el estudiado punto de referencia de exámenes MMLU, y mejorando el estado del arte en cada uno de los 20 puntos de referencia multimodales que examinamos.
Google Deepmind, Informe técnico
Como era de esperar, Gemini es multimodal, lo que significa que puede manejar texto, imágenes, audio, vídeo y código. Gemini no ofrece actualmente generación de imágenes, pero según la documentación técnica esta función está disponible y probablemente se introducirá con el tiempo. Gemini puede recibir avisos con imágenes, texto o una combinación de ambos.
El siguiente vídeo muestra las capacidades multimodales de Gemini.
3 Versiones diferentes
Consideramos que Gemini representa un importante avance en la inteligencia artificial, capaz de mejorar la vida cotidiana al trabajar con diversos tipos de información, incluyendo textos, imágenes y códigos de programación. Además, se destaca por su flexibilidad al ofrecer tres variantes diferentes de este modelo.
– Gemini Ultra – el más potente y de mayor tamaño, enfocado para tareas más complejas
– Gemini Pro – el modelo dedicado a una gama amplia de tareas
– Gemini Nano – el modelo más eficiente capaz de funcionar en dispositivos
Pruebe Gemini Pro en Google Bard
Google está integrando Gemini con Bard en dos fases. A partir de hoy, Bard utilizará una versión personalizada de Gemini Pro English que ofrece funciones mejoradas de comprensión, resumen, planificación y codificación. Gemini Pro English está disponible en más de 170 países y territorios, según Google.
Según Google, Gemini Pro superó a GPT-3.5 en seis de las ocho pruebas de referencia, incluidas Massive Multitask Language Understanding (MMLU) y GSM8K, que mide las habilidades de resolución de problemas matemáticos a nivel de escuela primaria. En pruebas ciegas independientes realizadas por terceros, Bard fue calificado como el chatbot gratuito preferido frente a ChatGPT, según Google.
La segunda fase de actualización de Bard introducirá Bard Advanced a principios del año que viene, lo que dará a los usuarios acceso a los modelos y funciones más avanzados, empezando por Gemini Ultra. Se desconoce si Google cobrará por ello, como hace OpenAI con ChatGPT Plus.
A lo largo del próximo año, los modelos Gemini se extenderán a otros productos de Google como la búsqueda, los anuncios y la aplicación de productividad Workspace.
El modelo Nano para smartphones se utilizará en el Pixel 8 Pro. Por ejemplo, creará resúmenes de notas de voz.