
2023-10-28 11:57:08
El contenido multilingüe podría ser un motor clave para los creadores de contenidos, con un aumento de las visualizaciones procedentes de audiencias en idiomas no principales. Alexander Konovalov, CEO de vidby, explica cómo pueden ayudar las herramientas de IA.
Los vídeos multilingües se han convertido en un santo grial para los creadores de contenidos que quieren llegar a un público global atrayendo a espectadores de diversos orígenes lingüísticos. Según la empresa, los vídeos de YouTube doblados a varios idiomas aumentan en un 15% las visitas procedentes de audiencias que no hablan el idioma principal.
Tradicionalmente, el contenido multilingüe se conseguía mediante el doblaje humano, en el que los actores de doblaje reproducían el discurso original en la lengua de destino. Sin embargo, este proceso es bastante costoso y requiere mucho tiempo, lo que aparece como un imponente obstáculo en el oído de la economía de los creadores.
En la actualidad, el doblaje de vídeo con IA se centra en la gran precisión de la traducción del habla y también en los movimientos de los labios en pantalla. Aunque los espectadores no siempre oigan el idioma original, pueden deducirlo a partir de las expresiones faciales y los movimientos de los labios del orador. Las discrepancias, como los movimientos labiales asíncronos, pueden romper la inmersión del espectador y diluir el mensaje pretendido por el creador.
La IA domina la semántica y los contextos
El lenguaje rebosa detalles intrincados, y el contexto puede cambiar significativamente el significado de una palabra o frase. Mientras que las soluciones basadas en IA a menudo tienen dificultades para comprender contextos complicados, vidby utiliza modelos de aprendizaje profundo específicamente entrenados para captar el contexto y ofrecer traducciones más precisas. A través de los comentarios de los usuarios, el equipo perfecciona continuamente estos modelos para conseguir traducciones precisas y naturales.
El enfoque del aprendizaje por transferencia, que utiliza modelos preentrenados enriquecidos con datos preparados por el equipo de vidby, acelera el proceso de aprendizaje y mejora el resultado. Modelos como GPT y BERT, conocidos por su capacidad para comprender el contexto, permiten al equipo desarrollar sólidas herramientas de traducción.
Los matices del habla y la generación de voz
La entonación, los acentos y el ritmo naturales del habla pueden ser difíciles de reproducir para la IA. Por eso, vidby ha introducido funciones que permiten personalizar la pronunciación de palabras concretas en distintos idiomas.
En lo que respecta a la generación de voz, destaca el modelo de aprendizaje profundo WaveNet. Es experto en crear ondas de voz que suenen naturales, garantizando que la voz generada por la IA conserve las complejidades y matices del habla humana.
Más matices en el doblaje de marcas
¿Te has preguntado alguna vez cómo suenan los nombres de las marcas en distintos idiomas? Por ejemplo, si el nombre de su marca es AI Studio, es [ˌeɪˈaɪ] Estudio en inglés pero [aːˈiː ˈʃtuːdio] en alemán.
Independientemente de las reglas o las normas locales, los propietarios de marcas y sus consumidores quieren que su nombre suene bien en todos los idiomas. Si el nombre de la marca no suena bien, a los clientes les importará poco el resto.
Dicho esto, vidby ha integrado su modelo patentado BrandNameTTS para locutar los nombres según las normas de la lengua inglesa en cualquier idioma. Con ello, nuestro Doblaje de vídeo con IA garantiza la resonancia de la marca.
Sincronización: La IA aprende la sincronización labial natural y se encarga del trabajo manual
El doblaje de vídeos requiere alinear la voz con los movimientos de los labios del locutor, un reto que la IA suele superar. Vidby utiliza algoritmos que analizan los movimientos de los labios y ajustan la pista de audio para lograr una sincronización natural.
Para esta sincronización, el equipo utiliza la red GAN (Generative Adversarial Network). Esta red consta de un generador, que crea el audio, y un discriminador que evalúa su calidad. Sus esfuerzos combinados dan como resultado una sincronización precisa.
Al igual que otros avances en automatización, la sincronización labial ha reducido considerablemente el trabajo manual de los creadores. Los vídeos doblados teniendo en cuenta la sincronización labial tienen un aspecto natural y ofrecen una solución competitiva que podría automatizar por completo los costosos procesos manuales y podría funcionar para la mayoría de los casos personalizados específicos.
La velocidad y la longitud de las frases importan
La sincronización también es esencial para la longitud de las frases, ya que ésta varía de un idioma a otro. En el doblaje de vídeo, un aspecto esencial es controlar la velocidad de pronunciación al tiempo que se determina la longitud de las frases originales y su duración prevista en el idioma de destino. Consciente de ello, vidby ha incorporado sus propios modelos SpeechTempo para gestionar este aspecto.
Por ejemplo, la pronunciación del alemán suele ser un 20-30% más larga. Si una frase original en alemán dura 20 segundos, una versión correctamente traducida al inglés duraría unos 12-14 segundos.
Durante los 6-8 segundos siguientes a la síntesis, puede producirse una falta total de sincronización. Sin embargo, el aprendizaje profundo de la IA y las redes neuronales acuden al rescate, generando habla sintética teniendo en cuenta el ritmo y la entonación. El estiramiento del tiempo puede ayudar a ajustar la duración del habla, garantizando la sincronización con los movimientos de los labios.
En la carrera por mejorar la calidad de la locución, los proveedores de la competencia desarrollan y entrenan redes neuronales propias para potenciar sus soluciones de doblaje de vídeo. La IA desempeña un papel crucial a la hora de determinar la longitud de frases concretas durante el habla sintetizada y establecer valores normativos para diversos aspectos del habla, como el tono y el volumen.
Las futuras fronteras del doblaje de vídeo
Los avances en el doblaje de vídeos basados en la IA, como la síntesis del habla para diferentes edades y el control de la pronunciación, son sólo la punta del iceberg. La clonación del habla de nueva generación, la síntesis del habla basada en las emociones y la traducción simultánea en tiempo real ya están en el horizonte. Están a punto de revolucionar la forma en que los creadores desarrollan contenidos de vídeo. Con la ayuda de soluciones de doblaje de vídeo basadas en IA, los creadores producirán vídeos expresivos accesibles a un público mundial diverso.