2023-11-19 18:17:12
Puntos destacados:
🔹 Microsoft Ignite 2023 presenta herramientas para crear avatares y replicar voces.
🔹 Azure AI Speech text-to-speech avatar permite generar vídeos de avatares hablando.
🔹 Personal voice es una nueva capacidad que replica la voz del usuario.
Uno de los productos más inesperados lanzados en el evento Microsoft Ignite 2023 es una herramienta que puede crear un avatar fotorrealista de una persona y animar ese avatar diciendo cosas que la persona no necesariamente dijo.
Llamada Azure AI Speech text-to-speech avatar, la nueva función, disponible en vista previa pública desde hoy, permite a los usuarios generar vídeos de un avatar hablando subiendo imágenes de una persona que desean que el avatar se parezca y escribiendo un guion. La herramienta de Microsoft entrena un modelo para conducir la animación, mientras que un modelo separado de texto a voz, ya sea preconstruido o entrenado en la voz de la persona, «lee» en voz alta el guion.
Los avatares pueden hablar en varios idiomas. Y, para escenarios de chatbot, pueden utilizar modelos de IA como GPT-3.5 de OpenAI para responder a preguntas fuera de guion de los clientes.
Ahora, hay innumerables formas en que una herramienta así podría ser abusada, algo que Microsoft reconoce. (Tecnología similar de generación de avatares de la startup de IA Synthesia ha sido mal utilizada para producir propaganda en Venezuela y reportes de noticias falsas promovidos por cuentas en redes sociales pro-chinas.)
La nueva capacidad de voz personal, dentro del servicio de voz neural personalizado de Microsoft, puede replicar la voz de un usuario en pocos segundos siempre y cuando se proporcione una muestra de un minuto de discurso como indicación de audio.
Para evitar posibles problemas legales, Microsoft prohíbe el uso de discursos pregrabados, exigiendo que los usuarios den «consentimiento explícito» en forma de declaración grabada y verificando si esta declaración coincide con otros datos de entrenamiento de un solo uso antes de que un cliente pueda usar la voz personal para sintetizar un nuevo discurso.
Las marcas de agua se agregarán automáticamente a las voces personales, lo que facilitará la identificación de si el discurso es sintetizado y de qué voz fue sintetizado. Pero hay un inconveniente. Integrar la detección de marcas de agua en una aplicación o plataforma requiere la aprobación de Microsoft para utilizar su servicio de detección de marcas de agua, lo que obviamente no es ideal.