Stable Audio de Stability AI genera audio de alta calidad a partir de la introducción de un simple texto

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-09-14 16:55:19

La startup londinense Stability AI presentó el miércoles un nuevo producto llamado Stable Audio, que utiliza IA para generar pistas de música y efectos de sonido personalizados.

Stable Audio utiliza un modelo de IA basado en la difusión para crear archivos de audio personalizados en cuestión de segundos a partir de un simple texto. Los usuarios especifican géneros, instrumentos, afinación y otras características. A continuación, el sistema compone automáticamente las canciones, los efectos de sonido o las secuencias de instrumentos correspondientes.

Hasta 90 segundos a 44,1 kHz

Stability AI probó la herramienta con entradas como «Post-Rock, Guitarras, Kit de batería, Bajo, Cuerdas, Eufórico, Elevador, Moody, Fluido, Crudo, Épico, Sentimental, 125 BPM». El resultado es una canción de rock rápido y atmosférico a 125 BPM. Según Stability, esto permite a Stable Audio crear canciones de diversos géneros, como ambient, techno y trance.

A diferencia de otros generadores de música basados en IA, Stable Audio parece capaz de producir piezas musicalmente coherentes con una calidad de audio profesional de 44,1 kHz durante un periodo más largo de hasta 90 segundos.

Las muestras publicadas suenan auténticas y apenas sugieren que no haya compositores humanos detrás. En una GPU Nvidia A100, deberían generarse 95 segundos de audio en menos de un segundo, según Stability AI.

Puedes escuchar Stable Audio demo songs aquí. Desgraciadamente, los servidores están actualmente muy cargados, así que necesitarás un poco de suerte para probar el sistema por ti mismo.

Los artistas obtienen una parte de los ingresos de Stable Audio

Para conseguir esta calidad, el sistema se entrenó con una biblioteca musical proporcionada por AudioSparx. AudioSparx se asoció con Stability AI y prometió a la startup una parte de los ingresos de Stable Audio por utilizar las aproximadamente 800.000 canciones, efectos de audio y fragmentos de instrumentos. A cambio, los creadores de las canciones utilizadas en el entrenamiento pueden participar en los beneficios de Stable Audio a través de AudioSparx.

Al parecer, se les preguntó antes de la formación si querían poner a disposición sus canciones. Esta decisión puede ser una respuesta a la oposición masiva a la que se ha enfrentado Stability en el debate sobre derechos de autor en torno al material de formación de Stable Diffusion.

Según Stability AI, los usuarios pueden utilizar gratuitamente las canciones creadas con Stable Audio para uso personal. El uso comercial requiere una suscripción de pago. La empresa se dirige a profesionales creativos, como cineastas o desarrolladores de juegos, que necesitan rápidamente música de fondo adecuada.

Stability AI también planea lanzar un modelo musical de código abierto entrenado en diferentes conjuntos de datos

Audio estable difiere de Stable Diffusion en que no es de código abierto, a diferencia del popular modelo de imagen. Sin embargo, en las FAQ se afirma que pronto se publicará un modelo de código abierto entrenado con otros datos.

La base de Stable Audio es el modelo texto-música Dance Diffusion, que fue lanzado por Harmonai en 2022 con el apoyo de Stability. Sin embargo, Stable Audio es un modelo desarrollado desde cero por la división de audio de Stability Al, fundada en abril.

Utilizar modelos de difusión para la música no es una idea nueva. Sin embargo, la fuerza de Stable Audio reside en su capacidad para producir piezas de distinta duración, explica. Esto se tuvo en cuenta durante el entrenamiento, dijo.

Stability AI explica así la técnica subyacente:

  • Stable Audio es un modelo de difusión latente con varias partes: un Autoencoder Variacional (VAE), un codificador de texto y un modelo de difusión basado en U-net.
  • El VAE comprime el audio estéreo en una codificación latente con pérdidas, resistente al ruido e invertible, lo que permite una generación y un entrenamiento más rápidos.
  • Para las indicaciones de texto se utiliza un codificador de texto congelado de un modelo CLAP recién entrenado.
  • Las incrustaciones temporales se calculan durante el entrenamiento y se utilizan para controlar la longitud del audio de salida.
  • El modelo de difusión para Audio Estable es una red en U de 907 millones de parámetros basada en el modelo Moûsai.
Stable Audio de Stability AI genera audio de alta calidad 2023-09-14 16:55:19
Imagen: Estabilidad AI

Puedes utilizar Stable Audio exclusivamente a través de la interfaz web lanzada recientemente. 20 canciones al mes de hasta 45 segundos son gratuitas para uso personal. Por 11,99 $ al mes, obtienes 500 canciones con hasta 90 segundos de tiempo de reproducción y una licencia comercial.

La falta de filtro de contenidos podría facilitar el plagio

La herramienta también podría utilizarse para falsificar canciones de artistas populares. Hasta ahora, las discográficas han podido luchar con éxito contra estas creaciones de IA, pero la situación legal aún no está clara.

La propia Stability AI insiste en una entrevista con Techcrunch en que quiere utilizar la tecnología de forma responsable. La base de datos de AudioSparx no contiene canciones pop, pero sí muchas etiquetadas como tales al estilo de artistas conocidos. A diferencia de MusicLM de Google, los nombres de artistas famosos no están bloqueados, al menos de momento.

Queda por ver si Stable Audio será rentable para el modelo de negocio de Stability AI, que hasta ahora ha estado en números rojos. En cualquier caso, la impresionante calidad de las composiciones de la IA te hace sentarte y tomar nota.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo