Actualizaci贸n de productos y comunicaci贸n de voz a voz

A帽adir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuaci贸n0

2023-11-26 14:46:45

Puntos destacados:

馃棧锔 Voz a voz (STS) a帽adida a la s铆ntesis de voz.
馃攰 Cambios en las voces prefabricadas
馃殌 Formato Eleven Turbo v2 y uLaw 8khz

Hemos a帽adido Speech to Speech (STS) a la S铆ntesis del Habla. STS es una herramienta de conversi贸n de voz que te permite convertir la grabaci贸n de una voz para que suene como si fuera hablada por otra persona. Te permite controlar las emociones, el tono y la pronunciaci贸n m谩s all谩 de lo que es posible con las indicaciones de TTS solamente. 脷salo para extraer m谩s emociones de una voz en particular o como referencia de ‘di lo como quieres’.

En otras actualizaciones, estamos haciendo cambios en nuestras voces predefinidas. Adem谩s, hemos realizado una serie de mejoras en Projects, incluyendo la normalizaci贸n agregada, el diccionario de pronunciaci贸n y m谩s opciones de personalizaci贸n.

Speech to Speech (cambia tu voz e idioma con IA)

STS toma el contenido y el estilo del habla contenido en tu subida / grabaci贸n y cambia la voz. Piensa en STS como 煤til principalmente para dos cosas.

Actualizacion de productos y comunicacion de voz a voz 2023-11-26 14:46:45Speech to Speech lives inside Speech Synthesis

Uno es extraer m谩s emociones de una voz predefinida en particular. Sube / graba un discurso altamente expresivo y STS replicar谩 las emociones y la entonaci贸n en otra voz. Dado que no todas las voces pueden expresar emociones fuertes con solo indicaciones de TTS, ahora puedes hacer que un narrador profesional o un personaje de un libro infantil sea m谩s expresivo con tu propia voz.

Otro uso para STS es proporcionar una ‘referencia’ para la entrega del discurso. Si bien nuestro TTS generalmente clava la entonaci贸n de inmediato, a veces puede que desees ajustarlo. Aqu铆, STS te permite demostrar c贸mo entonar una frase en particular y luego hacer que cualquier voz que elijas la diga as铆. Esta funcionalidad ser谩 m谩s 煤til y fluida una vez que integremos STS directamente en Projects, pero nuestro objetivo aqu铆 es mejorar radicalmente tu capacidad para editar la salida con precisi贸n.

Mira el video creado por uno de nuestros miembros de la comunidad:

Investigaci贸n

Para convertir el discurso de origen en el discurso deseado, necesitamos expresar el contenido del discurso de origen con las caracter铆sticas del discurso deseado. Una buena analog铆a ser铆a las aplicaciones de intercambio de rostros que te permiten mezclar tu rostro con el de otra persona para crear una imagen de ambos como uno solo.

Actualizacion de productos y comunicacion de voz a voz 2023-11-26 14:46:45

El truco en la conversi贸n de voz es representar el contenido del discurso de origen utilizando los fonemas del discurso deseado. Pero hay un compromiso aqu铆, al igual que en el ejemplo de intercambio de rostros: cuantos m谩s marcadores uses para mapear los atributos de un rostro, m谩s restricciones impones al rostro que mapeas dentro de ellos. Menos marcadores significa menos restricciones.

Lo mismo ocurre con la conversi贸n de voz. Cuanta m谩s preferencia le demos al discurso deseado, m谩s riesgo corremos de desincronizarnos con el discurso de origen. Pero si no le damos suficiente preferencia, corremos el riesgo de perder gran parte de lo que hace que ese discurso sea caracter铆stico. Por ejemplo, si represent谩ramos la grabaci贸n de alguien gritando enojado con una voz susurrante, estar铆amos en problemas. Dar demasiada preferencia a las emociones del discurso de origen y el precio que pagamos es perder la impresi贸n de que es una voz susurrante hablando. Demasiado 茅nfasis en el patr贸n de habla susurrante y perdemos la carga emocional del discurso de origen.

Producto y actualizaciones recientes

Cambios en las voces predefinidas

Haremos cambios en las voces predefinidas disponibles en Speech Synthesis m谩s adelante esta semana. Dejaremos de dar soporte a algunas voces, pero las reemplazaremos por otras nuevas. Planeamos agregar m谩s de 20 en total en las pr贸ximas semanas.

Tambi茅n comenzaremos a proporcionar informaci贸n de la interfaz de usuario sobre cu谩nto se espera que est茅 disponible cada voz. Finalmente, a lo largo de diciembre trabajaremos en la renovaci贸n de las funciones de compartir voces de nuestra plataforma y en la compensaci贸n por su uso para mejorar a煤n m谩s la variedad de voces. M谩s detalles sobre esto pronto.

Eleven Turbo v2 y formato uLaw 8khz

Nuestro modelo Turbo contiene meses de investigaci贸n de nuestro equipo t茅cnico. Est谩 dise帽ado para interacciones en tiempo real, pero puede ser utilizado para cualquier cosa que desees. Tambi茅n viene con el formato est谩ndar (m)uLaw 8khz para sistemas IVR.

Normalizaci贸n ACX y metadatos con Projects

Ahora puedes aplicar las pautas de presentaci贸n de ACX a tus Projects. Se ajustar谩 el volumen y se aplicar谩 compresi贸n din谩mica. Adem谩s, hemos a帽adido la posibilidad de incrustar metadatos en tus Projects (ISBN, Autor y T铆tulo).

1701010035 807 Actualizacion de productos y comunicacion de voz a voz 2023-11-26 14:46:45Normalizaci贸n ACX y Metadatos con Projects

Diario de pronunciaci贸n

Agregar un Diccionario de Pronunciaci贸n ha sido una de las caracter铆sticas m谩s solicitadas. El mes pasado implementamos la adici贸n de etiquetas SSML para especificar la pronunciaci贸n utilizando los diccionarios IPA y CMU para nuestros modelos en ingl茅s. Ahora hemos lanzado el soporte de diccionario de pronunciaci贸n a nuestra interfaz de usuario de Projects, lo que te permite subir un archivo especificando la pronunciaci贸n usando IPA, CMU o sustituciones de palabras. Los archivos de diccionario se cargan utilizando el formato de archivo de l茅xico .PLS est谩ndar e abierto lexicon file format.

Por ahora, IPA y CMU son compatibles con Turbo V2 en ingl茅s, y las sustituciones de palabras (alias) son compatibles con todos los modelos y idiomas. Puedes encontrar la documentaci贸n completa aqu铆.

1701010035 191 Actualizacion de productos y comunicacion de voz a voz 2023-11-26 14:46:45Diario de pronunciaci贸n

Si tienes alg煤n comentario, no dudes en contactarnos en Discord!

Deja una opini贸n

Deje una respuesta

馃 AI MAFIA
Logo