Show-1 es el mejor creador de vídeo AI gratuito hasta la fecha

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-10-06 17:03:08

Show-1 es un modelo generativo de IA para convertir texto en vídeo que utiliza un enfoque híbrido para superar a las alternativas actuales, en algunos casos de forma significativa.

Investigadores de la Universidad Nacional de Singapur han desarrollado Show-1, un nuevo sistema de IA capaz de generar vídeos de alta calidad a partir de descripciones de texto. El modelo Show-1 no está relacionado con el modelo del mismo nombre que está detrás del episodio de South Park generado por IA.

Show-1 se basa en una combinación de dos arquitecturas diferentes para modelos de difusión -basada en píxeles y basada en latencia- para combinar lo mejor de ambos enfoques.

Show-1 combina la alineación de textos con un resultado de alta calidad

Los modelos de difusión basados en píxeles trabajan directamente con los valores de los píxeles y, por tanto, son más capaces de alinear la generación con la indicación del texto, pero requieren mucha potencia de cálculo. En cambio, los enfoques basados en latencias comprimen la entrada en un espacio latente antes de la difusión. Son más eficaces, pero tienen dificultades para conservar los detalles textuales.

El modelo Show-1 combina estas dos arquitecturas: la difusión basada en píxeles se utiliza para generar fotogramas clave e imágenes interpoladas de baja resolución. Esto captura todo el movimiento y el contenido cercano al texto. A continuación, se utiliza la difusión latente para escalar el vídeo de baja resolución a alta resolución. El modelo latente actúa como un «experto» para añadir detalles realistas.

Este enfoque híbrido combina lo mejor de dos mundos: la precisa alineación texto-vídeo de los modelos de píxeles y el eficaz escalado de los modelos latentes.

Según el equipo, Show-1 consigue los mismos o mejores resultados en términos de realismo y alineación texto-vídeo que métodos de última generación como Imagen Video o Runways Gen-2, al tiempo que utiliza sólo entre un 20 y un 25% de la memoria de la GPU que necesitan los modelos basados exclusivamente en píxeles para generar vídeo, lo que también podría hacer atractivo Show-1 para aplicaciones de código abierto.

Más información, ejemplos y próximamente el código y el modelo están disponibles en la web Mostrar-1 página del proyecto.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo