2023-08-16 07:08:53
Puntos destacados:
– 💡 Meta ha lanzado AudioCraft, una nueva herramienta de IA que genera audio y música de alta calidad a partir de texto.
– 🎵 AudioCraft consta de tres modelos: MusicGen, AudioGen y EnCodec, que permiten generar música, efectos de sonido y compresión de audio.
– 🌐 Estos modelos están disponibles como código abierto, lo que permitirá a investigadores y profesionales entrenar sus propios modelos y avanzar en el campo del audio y la música generados por IA.
Imagina a un músico profesional capaz de explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento. O un pequeño empresario que añade una banda sonora a su último anuncio de video en Instagram con facilidad. Esa es la promesa de AudioCraft, nuestra última herramienta de IA que genera audio y música de alta calidad y realista a partir de texto.
AudioCraft consta de tres modelos: MusicGen, AudioGen y EnCodec. MusicGen, que fue entrenado con música de propiedad de Meta y con licencia específica, genera música a partir de indicaciones de texto, mientras que AudioGen, que fue entrenado con efectos de sonido públicos, genera audio a partir de indicaciones de texto. Hoy estamos emocionados de lanzar una versión mejorada de nuestro decodificador EnCodec, que permite generar música de alta calidad con menos artefactos. También estamos lanzando nuestros modelos pre-entrenados de AudioGen, que te permiten generar sonidos ambientales y efectos de sonido como ladridos de perros, bocinas de coches o pasos en un suelo de madera. Y por último, estamos compartiendo todos los pesos y el código de los modelos de AudioCraft.
Estamos abriendo el código de estos modelos, brindando acceso a investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez y ayudar a avanzar en el campo del audio y la música generados por IA.
Aunque hemos visto mucho entusiasmo por la IA generativa para imágenes, video y texto, el audio parece haber quedado rezagado. Hay algunos trabajos disponibles, pero son altamente complicados y no están muy abiertos, por lo que las personas no pueden jugar fácilmente con ellos. Generar audio de alta fidelidad de cualquier tipo requiere modelar señales y patrones complejos a diferentes escalas. La música es quizás el tipo de audio más desafiante de generar, ya que está compuesta por patrones locales y de largo alcance, desde una serie de notas hasta una estructura musical global con múltiples instrumentos.
La familia de modelos de AudioCraft es capaz de producir audio de alta calidad con una consistencia a largo plazo y son fáciles de usar. Con AudioCraft, simplificamos el diseño general de los modelos generativos de audio en comparación con trabajos anteriores en el campo, brindando a las personas la receta completa para jugar con los modelos existentes que Meta ha estado desarrollando durante los últimos años, al tiempo que los empodera para empujar los límites y desarrollar sus propios modelos.
AudioCraft funciona para música, sonido, compresión y generación, todo en el mismo lugar. Debido a que es fácil de construir y reutilizar, las personas que deseen construir mejores generadores de sonido, algoritmos de compresión o generadores de música pueden hacerlo todo en la misma base de código y basarse en lo que otros han hecho.
Tener una sólida base de código abierto fomentará la innovación y complementará la forma en que producimos y escuchamos audio y música en el futuro. Con aún más controles, creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, al igual que los sintetizadores cuando aparecieron por primera vez.
Vemos la familia de modelos de AudioCraft como herramientas para músicos y diseñadores de sonido que brindan inspiración, ayudan a las personas a generar ideas rápidamente y a iterar en sus composiciones de nuevas formas. No podemos esperar para ver qué crean las personas con AudioCraft.
Más información sobre AudioCraft.