2023-07-26 09:45:12
La AI WebTV es una demostración experimental que muestra los últimos avances en la síntesis automática de video y música. Utiliza modelos de texto a video de código abierto como Zeroscope y MusicGen para generar videos y música de una manera entretenida. La WebTV no es un programa real con una dirección de arte o programación, sino más bien una demostración técnica o carrete de muestras. Funciona tomando sugerencias de video y pasándolas a un modelo de texto a video para generar secuencias de video. Un tema base e idea, escritos por un humano, también son pasados a través de un modelo de lenguaje para generar indicaciones individuales para cada clip de video. La WebTV está implementada en NodeJS y TypeScript y utiliza varios servicios alojados en Hugging Face.
Para generar videos, la WebTV utiliza Zeroscope V2, que se basa en ModelScope y consta de dos partes que pueden ser encadenadas juntas. El mismo indicador se utiliza tanto para la generación como para el escalado del video. La WebTV ejecuta Zeroscope desde dos Espacios de Hugging Face duplicados que ejecutan Gradio, llamados usando el paquete NPM @gradio/client.
Una vez que se genera un clip de video, pasa por una post-producción, que incluye escalado e interpolación de cuadros utilizando el algoritmo FILM. También se añade música generada con MusicGen durante este proceso.
Para transmitir el flujo, la WebTV utiliza FFmpeg para leer una lista de reproducción de archivos de video y audio y crear una transmisión. La lista de reproducción se crea listando todos los archivos de video en una carpeta y escribiendo sus rutas en un archivo de texto. Luego se utiliza FFmpeg para leer la lista de reproducción y enviar una transmisión FLV a un servidor RTMP. La AI WebTV en sí utiliza node-media-server, pero existen otras herramientas y servidores que pueden ser utilizados.
El contenido generado incluye varias secuencias de video, como composiciones de personajes y escenas, simulación de escenas dinámicas, estilos y efectos. Ejemplos del contenido generado se proporcionan en el texto.
Aunque los modelos de texto a video tienen la capacidad de emular fenómenos de la vida real hasta cierto punto, no son perfectos. Los futuros modelos entrenados en conjuntos de datos más grandes o especializados pueden mejorar la precisión en la reproducción de fenómenos físicos y la simulación del comportamiento de los agentes.