Actualización de productos y comunicación de voz a voz

AI Mafia

9 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-11-26 14:46:45

Puntos destacados:

🗣️ Voz a voz (STS) añadida a la síntesis de voz.
🔊 Cambios en las voces prefabricadas
🚀 Formato Eleven Turbo v2 y uLaw 8khz

Hemos añadido Speech to Speech (STS) a la Síntesis del Habla. STS es una herramienta de conversión de voz que te permite convertir la grabación de una voz para que suene como si fuera hablada por otra persona. Te permite controlar las emociones, el tono y la pronunciación más allá de lo que es posible con las indicaciones de TTS solamente. Úsalo para extraer más emociones de una voz en particular o como referencia de ‘di lo como quieres’.

En otras actualizaciones, estamos haciendo cambios en nuestras voces predefinidas. Además, hemos realizado una serie de mejoras en Projects, incluyendo la normalización agregada, el diccionario de pronunciación y más opciones de personalización.

Speech to Speech (cambia tu voz e idioma con IA)

STS toma el contenido y el estilo del habla contenido en tu subida / grabación y cambia la voz. Piensa en STS como útil principalmente para dos cosas.

Speech to Speech lives inside Speech Synthesis

Uno es extraer más emociones de una voz predefinida en particular. Sube / graba un discurso altamente expresivo y STS replicará las emociones y la entonación en otra voz. Dado que no todas las voces pueden expresar emociones fuertes con solo indicaciones de TTS, ahora puedes hacer que un narrador profesional o un personaje de un libro infantil sea más expresivo con tu propia voz.

Otro uso para STS es proporcionar una ‘referencia’ para la entrega del discurso. Si bien nuestro TTS generalmente clava la entonación de inmediato, a veces puede que desees ajustarlo. Aquí, STS te permite demostrar cómo entonar una frase en particular y luego hacer que cualquier voz que elijas la diga así. Esta funcionalidad será más útil y fluida una vez que integremos STS directamente en Projects, pero nuestro objetivo aquí es mejorar radicalmente tu capacidad para editar la salida con precisión.

Mira el video creado por uno de nuestros miembros de la comunidad:

Investigación

Para convertir el discurso de origen en el discurso deseado, necesitamos expresar el contenido del discurso de origen con las características del discurso deseado. Una buena analogía sería las aplicaciones de intercambio de rostros que te permiten mezclar tu rostro con el de otra persona para crear una imagen de ambos como uno solo.

Actualizacion de productos y comunicacion de voz a voz 2023-11-26 14:46:45

El truco en la conversión de voz es representar el contenido del discurso de origen utilizando los fonemas del discurso deseado. Pero hay un compromiso aquí, al igual que en el ejemplo de intercambio de rostros: cuantos más marcadores uses para mapear los atributos de un rostro, más restricciones impones al rostro que mapeas dentro de ellos. Menos marcadores significa menos restricciones.

Lo mismo ocurre con la conversión de voz. Cuanta más preferencia le demos al discurso deseado, más riesgo corremos de desincronizarnos con el discurso de origen. Pero si no le damos suficiente preferencia, corremos el riesgo de perder gran parte de lo que hace que ese discurso sea característico. Por ejemplo, si representáramos la grabación de alguien gritando enojado con una voz susurrante, estaríamos en problemas. Dar demasiada preferencia a las emociones del discurso de origen y el precio que pagamos es perder la impresión de que es una voz susurrante hablando. Demasiado énfasis en el patrón de habla susurrante y perdemos la carga emocional del discurso de origen.

Producto y actualizaciones recientes

Cambios en las voces predefinidas

Haremos cambios en las voces predefinidas disponibles en Speech Synthesis más adelante esta semana. Dejaremos de dar soporte a algunas voces, pero las reemplazaremos por otras nuevas. Planeamos agregar más de 20 en total en las próximas semanas.

También comenzaremos a proporcionar información de la interfaz de usuario sobre cuánto se espera que esté disponible cada voz. Finalmente, a lo largo de diciembre trabajaremos en la renovación de las funciones de compartir voces de nuestra plataforma y en la compensación por su uso para mejorar aún más la variedad de voces. Más detalles sobre esto pronto.

Eleven Turbo v2 y formato uLaw 8khz

Nuestro modelo Turbo contiene meses de investigación de nuestro equipo técnico. Está diseñado para interacciones en tiempo real, pero puede ser utilizado para cualquier cosa que desees. También viene con el formato estándar (m)uLaw 8khz para sistemas IVR.

Normalización ACX y metadatos con Projects

Ahora puedes aplicar las pautas de presentación de ACX a tus Projects. Se ajustará el volumen y se aplicará compresión dinámica. Además, hemos añadido la posibilidad de incrustar metadatos en tus Projects (ISBN, Autor y Título).

Normalización ACX y Metadatos con Projects

Diario de pronunciación

Agregar un Diccionario de Pronunciación ha sido una de las características más solicitadas. El mes pasado implementamos la adición de etiquetas SSML para especificar la pronunciación utilizando los diccionarios IPA y CMU para nuestros modelos en inglés. Ahora hemos lanzado el soporte de diccionario de pronunciación a nuestra interfaz de usuario de Projects, lo que te permite subir un archivo especificando la pronunciación usando IPA, CMU o sustituciones de palabras. Los archivos de diccionario se cargan utilizando el formato de archivo de léxico .PLS estándar e abierto lexicon file format.

Por ahora, IPA y CMU son compatibles con Turbo V2 en inglés, y las sustituciones de palabras (alias) son compatibles con todos los modelos y idiomas. Puedes encontrar la documentación completa aquí.

Diario de pronunciación