2023-11-12 16:41:52
EmerNeRF aprende representaciones tridimensionales del mundo real para ayudar a robots y coches autónomos a navegar con seguridad.
Investigadores de la Universidad del Sur de California, el Instituto de Tecnología de Georgia, la Universidad de Toronto, la Universidad de Stanford, Technion y Nvidia han desarrollado EmerNeRF. El modelo de IA puede utilizar grabaciones de vídeo para reconocer de forma independiente qué partes de una escena de tráfico son dinámicas y cuáles estáticas.
Para los coches autoconducidos u otros robots que se mueven en el mundo real, es crucial reconocer qué elementos de su entorno son estáticos y cuáles dinámicos. Sólo así pueden orientarse en el mundo e interactuar con él de forma segura. En la conducción autónoma, por ejemplo, las escenas de tráfico se dividen en objetos estáticos y dinámicos, como otros vehículos. Hoy en día, sin embargo, este proceso suele requerir supervisión humana, lo que resulta caro y difícil de escalar.
EmerNeRF aprende de forma autosupervisada y supera a los métodos supervisados
EmerNeRF, por su parte, aprende la clasificación de forma completamente autosupervisada a partir de imágenes de cámaras y LiDAR. Para EmerNeRF, los investigadores utilizaron los campos neuronales de radiación del mismo nombre: uno para las representaciones estáticas y otro para las dinámicas. El programa optimiza estos campos para que las réplicas de las escenas parezcan lo más realistas posible, sin ninguna información sobre qué objetos están estáticos o en movimiento.
Para representar mejor los objetos en movimiento, EmerNeRF también calcula un campo de flujo que muestra cómo se mueven los objetos a lo largo del tiempo. Con esta información de movimiento, puede combinar datos de múltiples puntos en el tiempo para visualizar los objetos en movimiento con más detalle.
Gracias al entrenamiento, EmerNeRF fue capaz de separar directamente escenas dinámicas, como secuencias de vídeo de viajes en coche sin etiquetas, en elementos estáticos y en movimiento. El equipo también mejoró EmerNeRF con partes de un modelo básico para imágenes 2D, aumentando su rendimiento en el reconocimiento de objetos en entornos 3D en casi un 38 por ciento de media.
En una exigente prueba con 120 escenas de conducción, EmerNeRF supera a los métodos más avanzados, como HyperNeRF y D2NeRF.
Más información, vídeos y el código en GitHub.