2023-11-08 18:50:56
En su primera conferencia de desarrolladores, OpenAI confirmó su ambición de construir un nuevo ecosistema de chatbot.
La noticia más importante es, sin duda, GPT-4 Turbo, que incluye numerosas innovaciones en la API, como asistentes y ChatGPT personalizados que los usuarios pueden alimentar con sus datos y programar en lenguaje natural. Pero más allá de estos dos grandes anuncios, OpenAI tenía más cosas reservadas.
Voz a texto: Whisper v3 disponible como código abierto
Whisper es el modelo de voz a texto de código abierto de OpenAI. El nuevo modelo v3 ha sido entrenado con 1 millón de horas de audio débilmente etiquetado y 4 millones de horas de audio pseudoetiquetado recogidas con Whisper v2. Además, se ha añadido el cantonés como idioma. En las pruebas comparativas, el modelo v3 supera significativamente a su predecesor en cuanto a tasa de error.
El rendimiento varía según el idioma, pero en general, la versión más grande de Whisper v3 tiene una tasa de error inferior al 60 por ciento para Common Voice 15 y Fleurs, lo que según OpenAI supone una reducción de errores de entre el 10 y el 20 por ciento respecto a Whisper large-v2.
Whisper v3 está disponible en Github y pronto estará disponible una implementación de la API OpenAI.
Texto a voz: Las voces sintéticas de OpenAI suenan humanas
OpenAI también ha anunciado lo contrario: un modelo de texto a voz que podría dar quebraderos de cabeza a Elevenlabs y compañía. Con el modelo TTS, puedes hacer que tus textos sean leídos en voz alta por hasta seis voces sintéticas que suenan humanas. Las voces son conocidas de la aplicación ChatGPT y tienen una entonación creíble.
El TTS de OpenAI está disponible en una versión de alta calidad y otra recortada para mayor velocidad. La empresa cobra 0,015 dólares por cada 1.000 caracteres hablados, lo que resulta bastante más barato que ElevenLabs si se supera la tarifa plana (hasta 0,30 dólares por 1.000 caracteres).
El ajuste de GPT-4 es costoso
También en la feria de desarrolladores, OpenAI anunció un programa «muy limitado» para el ajuste inicial de GPT-4. proyectos. GPT-3.5 dispone desde hace tiempo de opciones de ajuste fino, que pueden realizarse directamente en la interfaz web.
Sin embargo, el ajuste fino de GPT-4 parece ser mucho más complejo, con precios a partir de dos millones de dólares estadounidenses y un volumen de datos de al menos mil millones de tokens en la base de datos de la empresa. OpenAI sólo ofrece el ajuste fino a empresas seleccionadas, que tienen así acceso exclusivo a su modelo.
OpenAI protege contra la infracción de derechos de autor
Siguiendo los pasos de Microsoft y Google, OpenAI ha anunciado una forma de protección legal contra las demandas por derechos de autor generativos. Las empresas que sean demandadas en virtud de la ley de derechos de autor por contenidos generados con modelos de OpenAI podrán hacer que OpenAI les reembolse los costes de una posible demanda. Esto sólo se aplica a ChatGPT Enterprise y a la plataforma para desarrolladores. El escudo de derechos de autor no cubre ChatGPT estándar.
Nuevo decodificador de difusión estable
El Decodificador de Consistencia de OpenAI es una actualización de código abierto del decodificador utilizado en el Autoencodificador Variacional de Difusión Estable (VAE). Utiliza el entrenamiento de consistencia para mejorar la generación de imágenes, especialmente para texto, caras y líneas rectas. Es totalmente compatible con el VAE Stable Diffusion 1.0+. Mejoras con el nuevo descodificador pueden verse aquí o aquí.
ChatGPT está más al día y recibe actualizaciones más frecuentes
Con el modelo GPT-4 Turbo, ChatGPT también recibirá una actualización de contenidos hasta abril de 2023. Pero eso no es todo: Según Sam Altman, CEO de OpenAI, lo más molesto de ChatGPT es que no está actualizado, y OpenAI está de acuerdo. Por eso la empresa planea actualizaciones de contenido más regulares en el futuro.
El pago de los GPT se basa en los ingresos de ChatGPT
Un gran anuncio en la conferencia de desarrolladores fueron «los GPTs», instancias de ChatGPT que los usuarios pueden personalizar y optimizar para sus propósitos y luego ofrecer en un mercado. OpenAI anunció que también se pagará a los editores de chatbot que tengan éxito, pero el modo aún no estaba claro.
Altman dijo a Alex Heath de The Verge que el plan inicial es llevarse una parte de los ingresos por suscripción de ChatGPT. Habrá diferentes niveles en función del número de usuarios del chatbot, así como bonificaciones especiales por categorías. Altman no da cifras concretas y espera que el asunto «evolucione mucho».
Natural y HD: DALL-E 3 tiene dos modos adicionales
En su libro de recetas para desarrolladores, OpenAI muestra algunos detalles sobre DALL-E 3 cuando el modelo se maneja a través de la API. DALL-E 3 ofrece dos modos básicos, «natural» y «vívido», que, como su nombre indica, producen imágenes más naturales, realistas, o hiperrealistas, dramáticas. DALL-E 3 está configurado como «vívido» en ChatGPT. «Natural» debería ser más parecido a DALL-E 2 y es adecuado para fotos, por ejemplo.
Otros dos modos de calidad son «HD» y «Estándar», este último conocido por ChatGPT. Se supone que HD muestra más detalles y sigue la indicación con más precisión. Sin embargo, HD es más caro y tarda una media de diez segundos más en generarse. Aún así, es interesante para los desarrolladores que puedan conseguir una calidad ligeramente mejor para sus aplicaciones que la que ofrece DALL-E 3 en ChatGPT.
ChatGPT sigue teniendo cifras de usuarios increíbles
ChatGPT ha logrado un crecimiento increíble en menos de un año, como reiteró Sam Altman, Consejero Delegado de OpenAI, en la conferencia de desarrolladores: la plataforma cuenta actualmente con 100 millones de usuarios activos semanales.
Además, dos millones de desarrolladores tienen acceso a la API, y sus aplicaciones son utilizadas también por millones de usuarios. Según Altman, el 92% de las empresas de la lista Fortune 500 utilizan tecnologías de OpenAI. Es fácil afirmar que OpenAI domina la IA generativa en estos momentos.
Según Similarweb, el crecimiento de ChatGPT se ralentizó un poco durante los meses de verano. Dadas las cifras anteriores, esto no debería disminuir el éxito general de la plataforma.