
2023-09-03 11:40:58
El modelo de IA multimodal Gemini de Google competirá con el GPT-4 de OpenAI a partir de otoño y también estará disponible para los desarrolladores de aplicaciones de IA.
Así lo informa The Information, citando a una persona anónima implicada en el desarrollo de Gemini.
Gemini es «un grupo de grandes modelos de IA», afirma la fuente, lo que sugiere que, de forma similar a OpenAI, Google podría utilizar el enfoque de GPT-4 para la arquitectura de modelos consistente en múltiples modelos expertos en IA con capacidades específicas. También podría significar que Google quiere que Gemini esté disponible en diferentes tamaños, lo que probablemente sea rentable.
Gemini puede generar imágenes y texto. Dado que Gemini también ha sido entrenado en transcripciones de vídeos de YouTube, también podría ser capaz de generar vídeos sencillos, de forma similar a RunwayML Gen-2 o Pika Labs. También se dice que Gemini ha mejorado significativamente sus capacidades de codificación.
Google planea integrar Gemini gradualmente en sus productos, como el chatbot Bard y Google Docs o Slides. A finales de este año, Gemini también estará disponible para desarrolladores externos en Google Cloud.
Un gran lanzamiento requiere mucho personal
Según The Information, al menos dos docenas de ejecutivos participan en el desarrollo del modelo. Se dice que el equipo Gemini, formado por Google Brain y Deepmind, cuenta con varios centenares de empleados.
Google Deepmind se fusionó recientemente y todavía está buscando el equilibrio adecuado, como las políticas de trabajo a distancia y la tecnología utilizada para entrenar los modelos, según The Information. Al parecer, Deepmind abandonó a su competidor ChatGPT, de nombre en clave «Goodall» y basado en un modelo no anunciado llamado «Chipmunk», en favor de Gemini.
El equipo de Gemini está dirigido por el fundador de Deepmind, Demis Hassabis, con el apoyo de dos ejecutivos de Deepmind, Oriol Vinyals y Koray Kavukcuoglu, y el antiguo jefe de Google Brain, Jeff Dean. Incluso el fundador de Google, Sergey Brin, participa en el desarrollo de Gemini, al parecer ayudando a entrenar y evaluar el modelo.
El departamento jurídico de Google supervisa de cerca los materiales de formación de Gemini. Por ejemplo, el equipo de desarrollo ha tenido que retirar datos de entrenamiento de libros protegidos por derechos de autor. Según la fuente de The Information, Gemini también se entrenó inadvertidamente con contenido «ofensivo», lo que probablemente llevó a un reentrenamiento (parcial) del modelo.
Gemini se presentó oficialmente en mayo. Según rumores anteriores, el modelo tendría al menos un billón de parámetros. Se dice que el entrenamiento utiliza decenas de miles de chips de IA TPU de Google.
Demis Hassabis, consejero delegado de Gemini, declaró a finales de junio que Gemini «combinará algunos de los puntos fuertes de los sistemas de tipo AlphaGo con las asombrosas capacidades lingüísticas de los grandes modelos. También tenemos algunas innovaciones que van a ser bastante interesantes.»