Clonación vocal de código abierto «Voice Craft» aplasta las preocupaciones éticas de OpenAI

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2024-04-01 12:14:29

VoiceCraft es un modelo de lenguaje neural, que logra un rendimiento de vanguardia tanto en la edición de voz como en la síntesis de texto a voz (TTS) en datos del mundo real, incluidos audiolibros, videos de Internet y podcasts.

Para clonar o editar una voz no vista, VoiceCraft solo necesita unos pocos segundos de referencia.

Un equipo de investigadores de la Universidad de Texas en Austin y la empresa Rembrand ha desarrollado «Voice Craft», una herramienta de clonación de voz que puede editar el habla natural al insertar o eliminar palabras de las frases habladas y convertir texto en voz, según los desarrolladores.

El modelo de clonación de voz de código abierto «Voice Craft» hace que las restricciones éticas de OpenAI en su «Motor de voz» parezcan irrelevantes.

Voice Craft es adecuado tanto para la edición de habla como para la síntesis de voz sin un modelo de voz objetivo pre entrenado («TTS de cero disparos»). Solo tres segundos de material de origen son suficientes para un clon de voz.

Ejemplos de esta herramienta de clonacion de voces por IA:

Voice Craft está disponible en Github bajo la licencia Apache 2.0 en una versión pequeña (330M) y grande (830M), incluyendo pesos. Se dice que la versión pequeña está a la par con la grande, pero tiene un rendimiento mucho mejor. Puedes escuchar numerosas demos en la página web del proyecto.

Según el equipo de Voice Craft, la versión pequeña del modelo se desempeña a la par con la versión grande, pero con un rendimiento significativamente mejor. Los usuarios pueden explorar las capacidades de síntesis de voz a través de numerosas demostraciones disponibles en el sitio web del proyecto.

Preocupaciones Éticas y Seguridad de la IA

Los investigadores reconocen las preocupaciones éticas que podrían surgir al liberar una tecnología de clonación de voz al público. En particular, admiten que esta capacidad podría ser mal utilizada para actividades criminales. Sin embargo, argumentan que al hacer el modelo de código abierto, la comunidad de investigación tiene la oportunidad de estudiarlo y comprenderlo para prevenir posibles usos incorrectos.

Contraste con la Postura de OpenAI

En contraste con el enfoque de código abierto de Voice Craft, OpenAI ha adoptado una postura más restrictiva con su propio modelo de voz, Voice Engine. Esta herramienta, capaz de clonar voces humanas con solo 15 segundos de material de origen, ha sido presentada recientemente pero solo está disponible para grupos seleccionados debido a los riesgos involucrados.

El Dilema de OpenAI como Guardián Ético

La existencia misma de Voice Craft socava el argumento de OpenAI de restringir el acceso a estas tecnologías. Esta situación es reminiscente del revuelo que rodeó a GPT-2 en 2019, cuando OpenAI afirmó que el modelo era demasiado peligroso para publicarlo. Sin embargo, hoy en día existen muchos modelos de código abierto más potentes que GPT-2, y la IA de texto generativo está ampliamente disponible y puede ser fácilmente mal utilizada.

OpenAI no puede, y no debería, cumplir el papel de guardián para el uso éticamente correcto de la IA generativa, un rol que parece atribuirse a sí misma. Estas tecnologías innovadoras deben ser desarrolladas y utilizadas por muchos actores, no solo por una sola entidad.

Voice Craft fue presentado el 21 de marzo de 2024, ocho días antes de la presentación de Voice Engine por parte de OpenAI el 29 de marzo. Además, Voice Craft no es el primer modelo de su tipo en el mercado, lo que demuestra que la tecnología de clonación de voz ya está ampliamente disponible.

Curiosamente, OpenAI afirma haber completado Voice Engine en 2022, pero solo lo presentó en marzo de 2024. Esta demora plantea preguntas sobre las motivaciones detrás de la decisión de OpenAI de restringir el acceso al modelo.

Conclusión

El lanzamiento de Voice Craft desafía la postura de OpenAI sobre la liberación de tecnologías de voz sintética y reaviva el debate sobre el equilibrio entre el progreso tecnológico y las preocupaciones éticas. Mientras OpenAI aboga por un enfoque restrictivo, el equipo de Voice Craft ha optado por un camino de código abierto, argumentando que esto permitirá a la comunidad de investigación identificar vulnerabilidades y explorar estrategias para prevenir el uso indebido. Este contraste destaca la necesidad de un enfoque colaborativo y una mayor transparencia en el desarrollo de la IA generativa.

Declaraciones de OpenAI como: «Es importante que las personas en todo el mundo comprendan a dónde se dirige esta tecnología, ya sea que finalmente la implementemos ampliamente nosotros mismos o no», parecen desconectadas cuando un modelo comparable ya está disponible gratuitamente en este momento.

Deja una opinión

Deje una respuesta

🤖 AI MAFIA
Logo