Google amplía los límites de la comprensión de vídeo mediante IA que responde a tus preguntas

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-11-16 16:04:26

Google y Google Deepmind presentan Mirasol, un pequeño modelo de IA capaz de responder a preguntas sobre vídeo y establecer nuevos récords.

Para entender el vídeo, los modelos de IA necesitan integrar información de distintas modalidades, como vídeo, audio y texto. Sin embargo, los sistemas de IA actuales tienen dificultades para procesar flujos de datos diversos y grandes cantidades de datos. En un nuevo estudio, investigadores de Google y Google Deepmind presentan un enfoque que mejora significativamente la comprensión multimodal de vídeos de larga duración.

Mirasol apuesta por el nuevo módulo transformador «Combiner»

Con el modelo de inteligencia artificial de Mirasol, el equipo trata de resolver dos problemas fundamentales: En primer lugar, modalidades como el vídeo y el audio están sincronizadas en el tiempo y se producen a altas frecuencias de muestreo, mientras que modalidades como los títulos y las descripciones son asíncronas con el propio contenido. En segundo lugar, el vídeo y el audio generan grandes cantidades de datos que ponen a prueba la capacidad del modelo.

Para Mirasol, el equipo utiliza combinadores y modelos de transformadores autorregresivos. Las señales de vídeo y audio sincronizadas en el tiempo son procesadas por un componente del modelo, que divide el vídeo en segmentos individuales. Un transformador procesa cada segmento y aprende las relaciones entre ellos. Otro transformador procesa el texto contextual. Ambos componentes intercambian información sobre sus respectivas entradas.

En el componente de vídeo-audio, un novedoso módulo de transformación denominado Combinador extrae representaciones comunes de cada segmento y comprime los datos mediante la reducción de dimensiones. Cada segmento contiene entre 4 y 64 fotogramas; en total, la versión actual del modelo, con 3.000 millones de parámetros, puede procesar vídeos de 128 a 512 fotogramas. Otros modelos mucho más grandes, basados principalmente en transformadores basados en texto con modalidades adicionales, a menudo sólo pueden procesar entre 32 y 64 fotogramas de todo el vídeo.

Mirasol de Google podría utilizarse para YouTube

En las pruebas, Mirasol3B logra nuevos puntos de referencia en el análisis de preguntas sobre vídeos, es significativamente más pequeño y puede procesar vídeos más largos. Con una variante del combinador que incorpora memoria, el equipo puede reducir la potencia de cálculo necesaria en otro 18%.

En el futuro, modelos como Mirasol podrían ser utilizados por chatbots, como el recientemente lanzado asistente de IA para YouTube, para responder a preguntas sobre vídeos o mejorar funciones como la categorización automática y el marcado por capítulos de los vídeos.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo