Google amplía los límites de la comprensión de vídeo mediante IA que responde a tus preguntas

2 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-11-16 16:04:26

Google y Google Deepmind presentan Mirasol, un pequeño modelo de IA capaz de responder a preguntas sobre vídeo y establecer nuevos récords.

Para entender el vídeo, los modelos de IA necesitan integrar información de distintas modalidades, como vídeo, audio y texto. Sin embargo, los sistemas de IA actuales tienen dificultades para procesar flujos de datos diversos y grandes cantidades de datos. En un nuevo estudio, investigadores de Google y Google Deepmind presentan un enfoque que mejora significativamente la comprensión multimodal de vídeos de larga duración.

Mirasol apuesta por el nuevo módulo transformador «Combiner»

Con el modelo de inteligencia artificial de Mirasol, el equipo trata de resolver dos problemas fundamentales: En primer lugar, modalidades como el vídeo y el audio están sincronizadas en el tiempo y se producen a altas frecuencias de muestreo, mientras que modalidades como los títulos y las descripciones son asíncronas con el propio contenido. En segundo lugar, el vídeo y el audio generan grandes cantidades de datos que ponen a prueba la capacidad del modelo.

Para Mirasol, el equipo utiliza combinadores y modelos de transformadores autorregresivos. Las señales de vídeo y audio sincronizadas en el tiempo son procesadas por un componente del modelo, que divide el vídeo en segmentos individuales. Un transformador procesa cada segmento y aprende las relaciones entre ellos. Otro transformador procesa el texto contextual. Ambos componentes intercambian información sobre sus respectivas entradas.

En el componente de vídeo-audio, un novedoso módulo de transformación denominado Combinador extrae representaciones comunes de cada segmento y comprime los datos mediante la reducción de dimensiones. Cada segmento contiene entre 4 y 64 fotogramas; en total, la versión actual del modelo, con 3.000 millones de parámetros, puede procesar vídeos de 128 a 512 fotogramas. Otros modelos mucho más grandes, basados principalmente en transformadores basados en texto con modalidades adicionales, a menudo sólo pueden procesar entre 32 y 64 fotogramas de todo el vídeo.

Mirasol de Google podría utilizarse para YouTube

En las pruebas, Mirasol3B logra nuevos puntos de referencia en el análisis de preguntas sobre vídeos, es significativamente más pequeño y puede procesar vídeos más largos. Con una variante del combinador que incorpora memoria, el equipo puede reducir la potencia de cálculo necesaria en otro 18%.

En el futuro, modelos como Mirasol podrían ser utilizados por chatbots, como el recientemente lanzado asistente de IA para YouTube, para responder a preguntas sobre vídeos o mejorar funciones como la categorización automática y el marcado por capítulos de los vídeos.

Google amplía los límites de la comprensión de vídeo mediante IA que responde a tus preguntas

Mirasol apuesta por el nuevo módulo transformador «Combiner»

Mirasol de Google podría utilizarse para YouTube

El audio falso generado por inteligencia artificial del principal programa informativo alemán "Tagesschau" difunde desinformación

Científicos de todo el Mundo se Unen para Desarrollar Modelos de IA de un Billón de Parámetros

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta