2023-08-06 13:59:20
Los modelos lingüísticos que leen documentación aprenden con éxito a utilizar herramientas y, en algunos casos, incluso inventan nuevos métodos, según un nuevo trabajo de investigación.
Los grandes modelos lingüísticos como ChatGPT pueden hacer un uso rudimentario de herramientas o API. Tradicionalmente, los modelos lingüísticos se entrenan con unos pocos ejemplos utilizando las herramientas. Sin embargo, en el caso de herramientas más complejas, estas demostraciones son escasas o inexistentes. Un equipo de investigadores de la Universidad de Washington, la Universidad Nacional de Taiwán y Google tiene una idea diferente: Basta con leer el manual, abreviado RTFM en la web.
Este tipo de documentación describe exactamente lo que hace una herramienta, como la documentación de una API. Son más generales que una demostración de cómo utilizar la herramienta para una tarea concreta y están fácilmente disponibles para la mayoría de herramientas de software a través de archivos README o referencias API. El equipo, por tanto, asumió que no sólo se escalarían mejor sino que también producirían mejores resultados que las demostraciones porque los modelos también aprenden sobre las herramientas de una forma más general y flexible.
La formación con documentación permite un uso cero de las herramientas
El equipo entrenó a varios modelos en seis tareas diferentes utilizando tanto documentación como demostraciones y comparó su rendimiento. Utilizando sólo la documentación, el rendimiento sin disparos fue igual o mejor que el de los modelos que aprendieron sólo de las demostraciones. Después, tras escalar a un conjunto de datos de 200 herramientas, el primer modelo superó significativamente al segundo.
En el ámbito del procesamiento de imágenes, el modelo fue capaz de realizar funciones complejas de procesamiento de imágenes y seguimiento de vídeo sin necesidad de más demostraciones, aprendiendo de la documentación de nuevos módulos de procesamiento de imágenes de última generación. El equipo destaca como especialmente destacable que el modelo fue capaz de reproducir técnicas de procesamiento de imágenes de reciente aparición, como Grounded-SAM, y de seguimiento de vídeo con Track Anything, lo que demuestra el potencial del método para el descubrimiento automático de conocimientos.
«En general, arrojamos luz sobre una nueva perspectiva del uso de herramientas con LLM al centrarnos en sus capacidades internas de planificación y razonamiento con docs, en lugar de guiar explícitamente sus comportamientos con demos», afirma el artículo.