El modelo de inteligencia artificial de texto a voz más grande hasta ahora muestra ‘habilidades emergentes’

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+2

15 de febrero de 2024

El avance del modelo de texto a voz más grande: BASE TTS

Los investigadores de Amazon han alcanzado un hito importante en el campo de la inteligencia artificial: han desarrollado y entrenado el modelo de texto a voz más grande hasta la fecha, conocido como BASE TTS. Este modelo no solo es notable por su tamaño impresionante, sino también por las habilidades emergentes que exhibe, marcando un avance significativo en la capacidad de expresión natural de las máquinas.

El salto cualitativo en la inteligencia artificial

La evolución de los modelos de inteligencia artificial siempre ha sido un campo de expectativas y descubrimientos. Sin embargo, este avance particular representa un paso adelante significativo. Los investigadores esperaban presenciar un salto cualitativo en la capacidad de los modelos de lenguaje una vez que superaran cierto tamaño, y parece que el BASE TTS ha confirmado esas expectativas.

Es importante destacar que esto no implica que estén adquiriendo conciencia o algo similar; simplemente, más allá de cierto punto, su desempeño en ciertas tareas de inteligencia artificial conversacional experimenta un aumento drástico. El equipo de Amazon AGI, consciente de lo que están persiguiendo, creyó que algo similar podría ocurrir a medida que los modelos de texto a voz crecieran, y su investigación parece confirmarlo.

Este nuevo modelo, denominado Big Adaptive Streamable TTS with Emergent abilities (BASE TTS), ha sido desarrollado con 100,000 horas de habla de dominio público, siendo el 90% en inglés y el resto distribuido entre alemán, holandés y español.

Con 980 millones de parámetros, BASE-large parece ser el modelo más grande en esta categoría. Además, se entrenaron modelos más pequeños de 400 millones y 150 millones de parámetros, basados en 10,000 y 1,000 horas de audio respectivamente, con el propósito de comparar su desempeño. La idea detrás de esto es identificar el punto en el que estos comportamientos emergentes comienzan a surgir.

Resulta que el modelo de tamaño mediano mostró el avance en capacidad que el equipo estaba buscando, no necesariamente en la calidad del habla habitual (aunque mejoró ligeramente), sino en el conjunto de habilidades emergentes que observaron y midieron. A continuación, se presentan ejemplos de textos desafiantes mencionados en el estudio:

  • Sustantivos compuestos: «Los Beckham decidieron alquilar una encantadora casa de campo de piedra pintoresca en el campo».
  • Emociones: «¡Dios mío! ¿Realmente vamos a las Maldivas? ¡Es increíble!», gritó Jennie, rebosante de alegría.
  • Palabras extranjeras: «Mr. Henry, famoso por su mise en place, orquestó una comida de siete platos, cada plato una obra maestra».
  • Paralingüística: «Shh, Lucy, shhh, no debemos despertar a tu hermanito», susurró Tom mientras caminaban sigilosamente junto al vivero.
  • Puntuaciones: «Recibió un extraño mensaje de texto de su hermano: ‘Emergencia en casa; llama lo antes posible! Mamá y papá están preocupados… #asuntosdefamilia'».
  • Preguntas: «Pero la pregunta del Brexit persiste: Después de todos los problemas, ¿los ministros encontrarán las respuestas a tiempo?».
  • Complejidades sintácticas: «La película en la que De Moya, quien recientemente recibió el premio a la trayectoria, protagonizó en 2022 fue un éxito de taquilla, a pesar de las críticas mixtas».

«Estas oraciones están diseñadas para contener tareas desafiantes: analizar oraciones complejas, enfatizar sustantivos compuestos largos, expresar emociones o susurros, o pronunciar palabras extranjeras como ‘qi’ o puntuaciones como ‘@’ – ninguna de las cuales BASE TTS está explícitamente entrenado para realizar», señalan los autores.

Aunque BASE TTS aún presenta ciertos problemas, su desempeño supera notablemente a sus competidores contemporáneos, como los modelos Tortoise y VALL-E.

El nuevo modelo ha demostrado su capacidad para abordar estos desafíos de manera más natural, como se puede comprobar en los numerosos ejemplos disponibles en el sitio dedicado al proyecto. Si bien estos ejemplos fueron seleccionados por los investigadores, siguen siendo impresionantes en su ejecución.

Dado que los tres modelos BASE TTS comparten una arquitectura, parece evidente que tanto el tamaño del modelo como la amplitud de sus datos de entrenamiento son determinantes en su capacidad para manejar las complejidades mencionadas anteriormente. Sin embargo, es importante destacar que este sigue siendo un modelo y proceso experimentales, no un modelo comercial. Futuras investigaciones deberán identificar el punto exacto en el que emerge esta capacidad y cómo entrenar y desplegar eficientemente el modelo resultante.

Es destacable que este modelo sea «transmisible», como indica su nombre, lo que significa que no necesita generar oraciones completas de una vez, sino que puede hacerlo momento a momento a una velocidad de bits relativamente baja. El equipo también ha explorado la posibilidad de incluir metadatos del habla, como la emotividad y la prosodia, en un flujo separado de baja capacidad que podría acompañar al audio convencional.

Conclusión

El desarrollo del BASE TTS representa un avance significativo en la capacidad de las máquinas para comprender y expresarse de manera más natural. A medida que continuamos explorando los límites de la inteligencia artificial, es emocionante imaginar las posibilidades futuras que esta tecnología podría ofrecer.

Se vislumbra un momento crucial para los modelos de texto a voz en 2024, ¡justo a tiempo para las elecciones! Sin embargo, más allá de su potencial impacto político, no se puede subestimar la utilidad de esta tecnología, especialmente en términos de accesibilidad. El equipo ha optado por no publicar la fuente del modelo y otros datos debido al riesgo de que sean explotados por actores maliciosos, aunque es probable que esta información salga a la luz eventualmente.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo