Puntos Clave:
- RunwayML ha lanzado dos nuevas funciones para su generador de vídeo: “Text-to-Speech” y “Ratio”.
- Además, la empresa ha anunciado una iniciativa de investigación sobre «modelos del mundo», que buscan avanzar la IA mediante sistemas capaces de comprender y simular el mundo visual.
- Estos modelos del mundo se proponen para desarrollar una representación interna de entornos y simular situaciones e interacciones del mundo real.
RunwayML, una nueva empresa tecnológica especializada en inteligencia artificial aplicada a vídeo, ha introducido dos nuevas funciones para su generador de vídeo. Estas mejoras incluyen la implementación de voces sintéticas en el editor de vídeo, conocida como «Text-to-Speech», con distintos timbres y características para elegir, así como la función «Ratio», que permite convertir un vídeo a distintos formatos con un solo clic, facilitando su adaptación a diferentes canales.
Además de estas novedades, RunwayML ha presentado una iniciativa de investigación denominada «modelos del mundo», que se enfoca en el desarrollo de sistemas de inteligencia artificial capaces de comprender y simular escenarios visuales del mundo real.
En esta línea, la empresa está trabajando en desafíos de investigación como la creación de modelos capaces de producir mapas coherentes del entorno y de modelar el comportamiento humano de forma realista. Este enfoque multimodal se alinea con el avance hacia una nueva norma en el desarrollo de IA, donde se integran texto, audio, imagen y video como puntos clave de datos.
Para profundizar en este proyecto, se ha contado con la opinión de Yann LeCun, responsable de investigación en IA de Meta, quien coincide en la importancia de que la IA desarrolle una comprensión básica del mundo para mejorar significativamente. Según LeCun, el lenguaje por sí solo no es suficiente como base de conocimiento para lograr una AI similar a la humana.
Además, se menciona que un ejemplo de este tipo de modelo es el GAIA-1 de Wayve, desarrollado a partir de datos visuales y textuales para controlar vehículos autónomos basándose en la comprensión del entorno.
En este sentido, RunwayML está involucrada en el desarrollo de modelos capaces de comprender y simular situaciones e interacciones del mundo real, lo que refleja un objetivo ambicioso de contribuir al avance de la IA aplicada a vídeos y escenarios visuales.
Modelos del mundo general para mejores vídeos – y más allá
La iniciativa de investigación de RunwayML está encaminada a desarrollar lo que la empresa denomina «modelos del mundo». Estos modelos tienen como objetivo avanzar en el campo de la IA mediante sistemas capaces de comprender y simular escenarios visuales del mundo real.
Se destaca que, a partir de datos visuales y textuales, Wayve ha desarrollado el GAIA-1 para controlar vehículos autónomos basándose en la comprensión del entorno, lo que representa un avance significativo en este ámbito. No obstante, se reconoce que este enfoque está aún limitado y controlado, lo que subraya la importancia de seguir trabajando en el desarrollo de modelos más avanzados.
RunwayML menciona que están trabajando en un modelo de IA denominado Gen-2, que se considera un modelo del mundo «muy temprano y limitado», ya que ha desarrollado una comprensión básica de la física y el movimiento para la generación de vídeo. No obstante, la empresa reconoce que las capacidades de este modelo siguen siendo limitadas y presenta problemas con el movimiento complejo de cámaras u objetos, lo que insta a seguir avanzando en la investigación para superar estas limitaciones.
Finalmente, se destaca la importancia de que la IA desarrolle una comprensión básica del mundo para progresar de forma significativa, así como la necesidad de ampliar el enfoque hacia un desarrollo multimodal que integre texto, audio, imagen y video como puntos clave de información para avanzar en la IA.