Puntos Claves:
- Investigación en multimodalidad de IA para mejora de modelos a través de datos no relacionados.
- Desarrollo y aplicación del Transformador de Trayectoria Multimodal (M2PT) con éxito en diferentes modalidades.
- Transferencia de conocimientos entre modalidades distintas como potencial clave del éxito de la multimodalidad.
La multimodalidad en el aprendizaje automático
En el campo de la inteligencia artificial, la capacidad de trabajar con múltiples tipos de datos, o multimodalidad, está cobrando gran relevancia. Modelos como Gemini de Google, que pueden procesar simultáneamente texto, imágenes y sonido, son solo el principio. La novedad surge con la propuesta de emplear datos de distintas modalidades que carecen de una conexión directa para fortalecer los algoritmos de IA.
Impacto del Transformador de Trayectoria Multimodal
Un estudio realizado por expertos de la Universidad China de Hong Kong junto con el Tencent AI Lab ha puesto a prueba la hipótesis de que un modelo de IA podría beneficiarse al incorporar información de modalidades aparentemente no relacionadas, como el audio cuando se focaliza en el reconocimiento de imágenes. La solución innovadora que han creado es el Transformador de Trayectoria Multimodal (M2PT), donde un tokenizador y un cabezal se diseñan para interactuar con otro modelo previamente entrenado en una modalidad diferente.
El enfoque propuesto, denominado «re-parametrización cross-modal», implica una vinculación entre las capas lineales de dos modelos de distintas modalidades, combinando sus salidas. Esta técnica ha resultado efectiva, ofreciendo un método práctico debido a sus mínimos costos adicionales de entrenamiento y sin costos extra de inferencia, lo cual es altamente atractivo para su uso en condiciones reales.
Los resultados demostraron mejoras sustanciales en el rendimiento al aplicar el M2PT, evidenciadas en tareas de reconocimiento de imágenes, análisis de nubes de puntos, procesamiento de video y audio.
Beneficios de los conocimientos intermodales en IA
Una pregunta que surge es el porqué de la efectividad de este método. Los investigadores indican que los conocimientos obtenidos de una modalidad pueden servir de beneficio en la tarea de otra modalidad distinta. Es decir, el conocimiento de una puede complementar a la otra. Aunque no hayan confirmado aún una base teórica sólida que explique por completo este fenómeno, la transferencia de saberes intermodales es un hallazgo prometedor que podría revelar mucho acerca de cómo funcionan las redes neuronales y abrir caminos a futuras exploraciones científicas.