2023-10-25 14:28:03
Según el CEO de Alphabet, Gemini de Google es solo el primero de una serie de modelos de IA de próxima generación que Google planea sacar al mercado en 2024.
Con el modelo de IA multimodal Gemini, Google quiere al menos alcanzar al GPT-4 de OpenAI. Se espera que el modelo salga al mercado a finales de este año. En la reciente llamada sobre los beneficios trimestrales, el consejero delegado de Alphabet, Sundar Pichai, afirmó que Google está «preparando el modelo».
Gemini se lanzará en diferentes tamaños y con diferentes capacidades, y se utilizará para todos los productos internos de inmediato, dijo Pichai. Así pues, es probable que Gemini sustituya al actual modelo de lenguaje PaLM-2 de Google. Los desarrolladores y los clientes de la nube tendrán acceso a través de Vertex AI.
Y lo que es más importante, Google está «sentando las bases de lo que yo considero el serie de modelos de próxima generación que lanzaremos a lo largo de 2024″.«, afirmó Pichai.
«El ritmo de la innovación es extraordinariamente impresionante de ver. Lo estamos creando desde cero para que sea multimodal, con herramientas e integraciones API muy eficientes y, lo que es más importante, sentando las bases para permitir también futuras innovaciones», afirmó Pichai.
La primera mirada al multimodal Gemini y una herramienta extra y secreta que Google ha mantenido oculta de todos también ha sido filtrada.
PaLM 2 será reemplazado por Gemini. Una versión multimodal más poderosa de PaLM 2. Y Gemini llegará a Makersuite, para que todos puedan probarlo.
Makersuite tiene algunas características básicas y admite salidas de texto a texto, pero queremos más. Queremos multimodalidad. Mira Bard, que admite entradas de imagen, y algunas personas se han quejado de que simplemente usarán API no oficiales para agregar la funcionalidad de entrada de imagen a su producto.
Si estás considerando hacer lo mismo, no lo hagas, porque Gemini, un modelo de IA multimodal, llegará directamente a Makersuite, y tengo pruebas.
Sigue leyendo y también verás capturas de pantalla filtradas.
Pero hay más filtraciones además de Gemini, aunque eso podría estar acaparando la atención. Tenemos Stubbs. ¿Qué es un Stubb? Bueno, es una función que te permite construir y lanzar tu propia aplicación generada por IA directamente desde Makersuite. En el momento de escribir esto, no ha habido ninguna información externa al respecto, ni siquiera un pequeño adelanto de Google, ni siquiera una sola mención. Pero yo lo encontré y tengo acceso a él. También hay capturas de pantalla filtradas a continuación.
Vamos a sacar las cosas menos importantes del camino. La traducción entre idiomas será totalmente compatible en Makersuite, y Google proporcionará un ejemplo de muestra para traducir entre español e inglés cuando esté disponible, así que mantén un ojo en eso.
Una función donde puedes crear aplicaciones funcionales directamente en un sitio con solo una indicación, es revolucionario, y tampoco se ha mencionado en ningún lugar. Google solo ha estado dando pistas sobre Gemini, pero eso parece haber sido una distracción de lo que podría ser el mayor lanzamiento de Google del año. Esto no reemplazará a los desarrolladores de aplicaciones, sino que será un impulso enorme para la industria. Por lo que parece, esto será como prototipos de Figma generados por IA y no creará un código completo, sino más bien prototipos funcionales de aplicaciones generadas por IA.
Crea un prototipo de aplicación con una imagen-texto: Gemini potencia el desarrollo de aplicaciones sin código en «Stubbs» de Google
Desarrollador Bedros Pamboukian informa sobre una nueva herramienta de IA que está preparando Google, llamada Stubbs, que probablemente funcionará con Gemini. Pamboukian cree que Stubbs podría ser el lanzamiento más importante de Google.
Stubbs está diseñado para facilitar la creación de prototipos de aplicaciones o modelos de inteligencia artificial mediante la generación de prototipos a partir de una descripción de texto o una imagen (o ambas combinadas), que pueden publicarse y compartirse de forma muy similar a los prototipos de Figma. Pamboukian aún no ha podido determinar la funcionalidad exacta basándose en fragmentos de código, pero muestra las primeras capturas de pantalla de la supuesta interfaz de usuario.
Durante su investigación, Pamboukian también se topó con un modelo de IA llamado «Multimodal IT M», que podría ser una variante de Gemini. Además de texto, el modelo también puede procesar imágenes y escribir subtítulos para imágenes, por ejemplo. Estas funciones también las ofrece Google Bard o GPT-4V.