2023-08-04 14:02:54
3D-LLM integra la comprensión de entornos tridimensionales en grandes modelos lingüísticos, llevando a los chatbots del mundo bidimensional al tridimensional.
Los grandes modelos de lenguaje y los modelos de lenguaje multimodal pueden manejar el habla y las imágenes 2D, ejemplos incluyen ChatGPT, GPT-4, y Flamingo. Sin embargo, estos modelos carecen de una verdadera comprensión de los entornos tridimensionales y los espacios físicos. Los investigadores han propuesto ahora un nuevo enfoque denominado LLM 3D para resolver este problema.
Los LLMs 3D están diseñados para dar a la IA una idea de los espacios 3D utilizando datos 3D como nubes de puntos como entrada. De este modo, los modelos de lenguaje multimodal deberían comprender conceptos como las relaciones espaciales, la física y las asequibilidades que son difíciles de entender sólo con imágenes 2D. Los LLM 3D podrían permitir a los asistentes de IA navegar, planificar y actuar mejor en mundos tridimensionales, por ejemplo en robótica e IA corporizada.
La relación entre el mundo 3D y el lenguaje
Para entrenar los modelos, el equipo necesitaba recopilar un número suficiente de pares de datos 3D y de lenguaje natural; estos conjuntos de datos son limitados en comparación con los pares imagen-texto de la Web. Por lo tanto, el equipo desarrolló técnicas para que ChatGPT generara diferentes descripciones y diálogos en 3D.
El resultado es un conjunto de datos de más de 300.000 ejemplos de texto 3D que abarcan tareas como el etiquetado 3D, la respuesta a preguntas visuales, la descomposición de tareas y la navegación. Por ejemplo, se pidió a ChatGPT que describiera una escena 3D de un dormitorio haciendo preguntas sobre objetos visibles desde distintos ángulos.
El equipo conecta descripciones de texto con puntos del espacio 3D
A continuación, el equipo desarrolló extractores de características 3D para convertir los datos tridimensionales a un formato compatible con modelos de lenguaje de visión 2D preentrenados, como BLIP-2 y Flamingo.

Además, los investigadores utilizan un mecanismo de localización 3D que permite a los modelos captar información espacial asociando descripciones textuales con coordenadas 3D. Esto también facilitó el uso de modelos como BLIP-2 para entrenar eficientemente LLMs 3D para entender escenas 3D.
Las pruebas con modelos lingüísticos 3D arrojan resultados prometedores
Los experimentos demostraron que los modelos de lenguaje 3D eran capaces de generar descripciones en lenguaje natural de escenas tridimensionales, mantener diálogos con conciencia tridimensional, descomponer tareas complejas en acciones tridimensionales y relacionar el lenguaje con ubicaciones espaciales. Según los investigadores, esto demuestra el potencial de la IA para desarrollar una percepción de los entornos 3D más parecida a la humana mediante la incorporación de capacidades de razonamiento espacial.
Los investigadores planean ampliar los modelos a otras modalidades de datos, como el sonido, y entrenarlos para realizar tareas adicionales. También afirman que el objetivo es aplicar estos avances a asistentes de IA encarnados que puedan interactuar de forma inteligente con entornos tridimensionales.