2023-09-26 15:15:52
ChatGPT recibirá nuevas funciones en las próximas semanas para que la interacción sea más intuitiva. Algunas de ellas son funciones de reconocimiento de voz e imagen anunciadas anteriormente.
OpenAI está ampliando las capacidades de voz de ChatGPT primero en sus aplicaciones para iOS y Android. Ya se podía utilizar el chat de voz en lugar de escribir basándose en el modelo Whisper de código abierto de OpenAI, pero era unidireccional. Ahora ChatGPT también puede responder por voz. Aunque Whisper funciona en otros idiomas además del inglés, OpenAI desaconseja su uso en otras lenguas, especialmente las que no tienen caracteres latinos.
OpenAI ha desarrollado su propio modelo de texto a voz
Para la salida de voz, OpenAI ha desarrollado su propio modelo de texto a voz, que también está siendo adaptado por Spotify. Esto convierte a OpenAI en un proveedor de soluciones también en este ámbito, compitiendo con startups como Elevenlabs que se centran en las voces sintéticas.
La voz de IA de OpenAI es capaz de generar voces sintéticas que suenan humanas al estilo de la voz original a partir de texto con solo unos segundos de audio de muestra. Para las cinco voces de ChatGPT, OpenAI trabajó con actores de voz profesionales.
Además de ChatGPT, el el modelo de texto a voz también lo utiliza Spotify como ya se ha mencionado. El servicio sueco de música en streaming lo utiliza para traducir podcasts a otros idiomas con la voz del presentador del podcast. Spotify ha publicado los primeros ejemplos en español. El francés y el alemán les seguirán en los próximos días y semanas.
- Podcast de Lex Fridman – «Entrevista con Yuval Noah Harari».
- Experto de sillón – «Kristen Bell, por la gracia de dios, vuelve»
- El Diario de un CEO con Steven Bartlett – «Entrevista con la Dra. Mindy Pelz»
OpenAI aún no ha anunciado si otras empresas o particulares tendrán acceso al nuevo modelo de texto a voz. Sin embargo, el anuncio señala que, debido al riesgo de abuso por parte de clones de voz, inicialmente se llevará a cabo un despliegue controlado para escenarios de uso seleccionados, como el chat de voz y los podcasts de Spotify.
La voz puede combinarse con otra innovación de ChatGPT, la capacidad de reconocer y hablar sobre contenidos en imágenes. Esta función se anunció en el lanzamiento de GPT-4 y ya se está implantando.
Como ejemplo práctico de indicaciones multimodales, OpenAI cita la posibilidad de mostrar a ChatGPT una foto de un punto de interés y hablar sobre él mientras se viaja. Otro ejemplo muestra cómo ChatGPT puede utilizar imágenes para ayudar a mantener una bicicleta.
El nuevo reconocimiento de imágenes, que funciona con GPT-3.5 y GPT-4, también debería hacer que ChatGPT sea útil para preguntas cotidianas. Por ejemplo, según la entrada del blog, puedes hacer fotos de tu nevera y despensa y ChatGPT te sugerirá ideas para recetas. No importa si subes fotos o gráficos con texto, ChatGPT puede manejar todos los formatos de imagen.
En el smartphone, puedes marcar un área en una imagen en la que ChatGPT debe centrarse. Se desconoce si esta función llegará a la interfaz web y cuándo. Tendría sentido, ya que es probable que ChatGPT-Enterprise, en particular, sea utilizado principalmente por usuarios empresariales en pantallas grandes. Según OpenAI, las nuevas funciones se introducirán gradualmente.
OpenAI advierte contra el uso de GPT-4V en escenarios sensibles
En la tarjeta de sistema para GPT-4V(ision)OpenAI describe el reconocimiento de imágenes del modelo como «poco fiable». Por ejemplo, al analizar estructuras químicas, identificó erróneamente sustancias como fentanilo, carfentanilo y cocaína, pero a veces identificó correctamente componentes peligrosos como setas venenosas.
El modelo era propenso a las alucinaciones y podía presentar hechos incorrectos en tono autoritario. «Esto demuestra que el modelo no es fiable y no debería utilizarse para tareas de alto riesgo, como la identificación de compuestos o alimentos peligrosos», afirma el artículo.
Aquí, OpenAI advierte específicamente contra el uso de GPT-4V en un contexto científico y médico. La empresa también ofrece ejemplos en los que el modelo se niega a responder para evitar dar información sobre posibles sesgos.
OpenAI limita el análisis de imágenes de ChatGPT para humanos
Gran parte del anuncio de OpenAI sobre las nuevas funciones de ChatGPT gira en torno a la promesa de desarrollar una IA segura y útil. El tiempo transcurrido desde la presentación de GPT-4 y su reconocimiento de imágenes asociado ha servido para realizar pruebas intensivas, afirma la empresa. Sin embargo, no se descartan las alucinaciones.
«También hemos tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT de analizar y hacer afirmaciones directas sobre las personas, ya que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de las personas», escribe OpenAI. Sin embargo, el uso en el mundo real ayuda a mejorar esas protecciones, añade.
Anteriormente, se había informado de que a OpenAI le preocupaba que la comprensión de imágenes de ChatGPT pudiera utilizarse indebidamente como sistema de reconocimiento facial y debiera restringirse. La aplicación «Be My Eyes», que describe el entorno de los discapacitados visuales, desactivó hace meses el reconocimiento facial. En la ficha del sistema para GPT-4V(ision), OpenAI escribe que está trabajando en una función que pueda describir caras sin identificar personas.