OpenAI se apresura para lanzar el multimodal LLM GPT-Vision, con el objetivo de superar el debut de Google Gemini.

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-10-01 05:43:01

Puntos destacados:

– OpenAI se prepara para lanzar su próxima generación de modelos de lenguaje multimodales, llamada Gobi, para mantener su liderazgo frente a Google.
– Los modelos de lenguaje multimodales son capaces de procesar y comprender tanto texto como imágenes, lo que les otorga una amplia gama de aplicaciones.
– OpenAI planea incorporar capacidades multimodales similares a las de Google Gemini en su modelo GPT-4.

OpenAI ha estado lanzando productos a una velocidad asombrosa, y con estos lanzamientos ha mantenido la imagen de un líder en Inteligencia Artificial que ha construido desde el lanzamiento de su chatbot de IA, ChatGPT.

Con el próximo lanzamiento de Gemini, el último modelo de lenguaje grande de Google que se espera debutar este otoño y que supuestamente está siendo probado con clientes empresariales selectos, inicialmente parecía que Google podría tomar la delantera por primera vez. Sin embargo, ahora parece que OpenAI tiene la intención de interrumpir los planes de Google.

El laboratorio de IA, según un informe de The Information, está planeando lanzar LLM multimodales, su próxima generación de modelos de lenguaje grande, con el nombre en clave Gobi, en un esfuerzo por vencer a Google y mantener su liderazgo.

Un modelo de lenguaje grande multimodal es básicamente un sistema avanzado de IA que puede procesar y comprender múltiples formas de datos, como texto e imágenes. A diferencia de los modelos de lenguaje tradicionales que funcionan principalmente con texto, los LLM multimodales tienen la capacidad de analizar y generar contenido que combina información textual y visual.

Esto significa que pueden interpretar imágenes, comprender el contexto y producir texto o respuestas que incorporan tanto la entrada de texto como la visual. Los LLM multimodales son altamente versátiles y adecuados para diversas aplicaciones, desde la comprensión del lenguaje natural hasta la interpretación de imágenes y más, ofreciendo un alcance más amplio de capacidades de procesamiento de información.

«Estos modelos pueden trabajar tanto con imágenes como con texto, produciendo código para un sitio web simplemente viendo un boceto de cómo quiere que se vea el sitio, por ejemplo, o generando un análisis de texto de gráficos visuales para que no tenga que preguntar a su amigo ingeniero qué significan estos», señala el informe.

Según un informe que cita a una fuente no revelada familiarizada con el asunto, OpenAI está trabajando activamente para incorporar capacidades multimodales, similares a las que Gemini se espera que ofrezca, a GPT-4.

La firma respaldada por Microsoft había presentado esas características durante el lanzamiento de GPT-4, pero había limitado su disponibilidad a solo una empresa, Be My Eyes, una empresa que ayuda a personas con discapacidades visuales o ceguera en sus actividades diarias a través de su aplicación móvil. Ahora se está preparando para lanzar estas características, llamadas GPT-Vision, a un público más amplio.

Sam Altman, CEO de OpenAI, ha insinuado en varias entrevistas recientes que GPT-5 no está en el horizonte, pero están planeando realizar diversas mejoras a GPT-4, y esto puede ser una de ellas.

En una entrevista con Wired la semana pasada, el CEO de Google, Sundar Pichai, transmitió su confianza en la posición actual de Google en IA, reconociendo la naturaleza duradera del progreso tecnológico y su estrategia deliberada de equilibrar la innovación con la responsabilidad. También reconoció el lanzamiento de ChatGPT de OpenAI, dándole crédito por demostrar un ajuste del producto al mercado y una disposición entre los usuarios por la tecnología de IA, al tiempo que enfatizaba el enfoque cauteloso de Google debido a la confianza y responsabilidad asociadas con sus productos.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo