2023-08-23 17:54:20
Meta lanza un nuevo modelo de IA capaz de traducir directamente voz en 35 idiomas y texto en 100.
Con el nuevo modelo codificador-decodificador multimodal «SeamlessM4T», Meta combina en un único modelo las tecnologías de sus antiguos proyectos de traducción automática No Language Left Behind (NLLB), Universal Speech Translator y Massively Multilingual Speech. M4T son las siglas de Massively Multilingual & Multimodal Machine Translation.
Según Meta, al implementar los distintos modelos anteriores en un solo sistema, se reducen los errores y los retrasos, mejorando la eficacia y la calidad del proceso de traducción.
El modelo es multimodal en el sentido de que puede traducir texto a 100 idiomas, además de lenguaje hablado, que es audio en 35 idiomas. En total, el modelo puede traducir de voz a texto, de voz a voz, de texto a voz y de texto a texto, así como reconocer automáticamente el habla.
Según Meta, SeamlessM4T es el primer modelo que puede traducir muchos idiomas (35) directamente al lenguaje hablado sin pasar por el rodeo de la traducción de texto. Se supone que el modelo es un «paso significativo» en el camino hacia un traductor universal como el pez de Babel de La guía del autoestopista galáctico, que Meta menciona explícitamente como objetivo en el anuncio.
Características Principales:
SeamlessM4T, el primer modelo de traducción de IA multimodal y multilingüe todo en uno que permite a las personas comunicarse sin esfuerzo a través del habla y el texto en diferentes idiomas. SeamlessM4T admite:
- Reconocimiento de voz para casi 100 idiomas
- Traducción de voz a texto para casi 100 idiomas de entrada y salida
- Traducción de voz a voz, con soporte para casi 100 idiomas de entrada y 36 idiomas de salida (incluido el inglés)
- Traducción de texto a texto para casi 100 idiomas
- Traducción de texto a voz, con soporte para casi 100 idiomas de entrada y 35 idiomas de salida (incluido el inglés)
Se ha enfrentado al desafiante propósito de desarrollar un traductor universal de idiomas, semejante al ficticio Pez Babel de «La Guía del Autoestopista Galáctico». Este reto reside en que las actuales soluciones de traducción, ya sean de voz a voz o de voz a texto, únicamente abarcan una fracción mínima de las diversas lenguas existentes en el mundo. Aun así, la labor que se presenta en el día de hoy marca un hito significativo en esta travesía. En contraste con los métodos que se valen de enfoques separados, la estrategia monocanal de SeamlessM4T reduce las incidencias de error y las demoras, dando lugar a un aumento en la eficacia y calidad del proceso de traducción. Este logro posibilita que aquellos que se expresan en distintas lenguas se relacionen de manera más fluida y efectiva.
SeamlessM4T se apoya en los avances obtenidos a lo largo del tiempo por nosotros y otros en la búsqueda de concretar un traductor universal. El año previo, vio la luz «Ningún Idioma Excluido» (NIE), un modelo de traducción automática de texto a texto con soporte para 200 idiomas, el cual ya se ha integrado en Wikipedia como uno de los proveedores de traducción. Además, compartimos una demostración de nuestro Traductor Universal de Voz, siendo el primer sistema de traducción directa de voz a voz para el Hokkien, una lengua carente de un sistema de escritura de amplia difusión. Y, a principios de este mismo año, desvelamos el Discurso Sumamente Multilingüe, que provee tecnología de reconocimiento de voz, identificación de lenguaje y síntesis vocal en más de 1,100 lenguas.
SeamlessM4T se nutre de los descubrimientos de todos estos proyectos para habilitar una vivencia de traducción políglota y multimodal originada por un solo modelo, construido sobre una vasta gama de fuentes de datos orales que han dado lugar a resultados pioneros.
La IA podría ayudar a Meta a superar las barreras lingüísticas en sus plataformas sociales
Según Meta, SeamlessM4T logra nuevos resultados de vanguardia en las principales pruebas de referencia de traducción, superando a Whisper de OpenAI. Si quieres comprobarlo por ti mismo, puedes probar una demostración interactiva aquí.
El modelo más grande, SeamlessM4T-Large, también supera a Whisper en la evaluación humana, pero la diferencia es menor que en las pruebas automáticas. Ambos modelos siguen por detrás de las traducciones humanas en términos de calidad, pero la diferencia se reduce con cada nuevo modelo.
Meta lanza el modelo bajo la marca CC BY-NC 4.0 como modelo de código abierto en Github, pero no se puede utilizar comercialmente. Según el CEO de Meta, Mark Zuckerberg, en el futuro se integrará en las plataformas sociales propias de la empresa Facebook, Instagram, WhatsApp, Messenger y Threads.
Además del modelo, Meta también publica el conjunto de datos «SeamlessAlign» que el equipo compiló para entrenar SeamlessM4T. Meta afirma que se trata del mayor conjunto de datos abiertos sobre traducción multimodal, con 470.000 horas de material para 37 idiomas. La ampliación a 100 idiomas es un tema de desarrollo futuro. Sería el siguiente paso hacia un traductor universal.