XOT de Microsoft mejora la capacidad de generalización de LLM

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-11-15 23:15:40

Microsoft introduce ‘Everything of Thought’, que puede integrar conocimiento de dominio externo y producir un razonamiento mucho más fiable en los modelos lingüísticos.

Por lo general, los métodos complejos de ingeniería de avisos pretenden hacer que los grandes modelos lingüísticos sean más fiables en su razonamiento. Desde los métodos más sencillos, como el de cadena de pensamiento, hasta los más complejos, como el de árbol de pensamiento, intentan descomponer los problemas en los llamados «pensamientos». Un pensamiento es una frase simple que describe un subproblema más sencillo o el resultado de una conclusión, y una acción asociada, como una solución simple a uno de los subproblemas que conduce a un nuevo resultado.

El nuevo método «Everything of Thoughts» (XOT), desarrollado por investigadores de Microsoft, el Instituto Tecnológico de Georgia y la Universidad Normal de China Oriental, pretende ampliar las capacidades de los modelos lingüísticos con un módulo externo inspirado en AlphaZero. XOT utiliza el aprendizaje por refuerzo y la búsqueda en árbol Monte Carlo (MCTS) para integrar conocimientos externos del dominio en los pensamientos. Según los investigadores, esto debería permitir a los modelos lingüísticos generalizar eficazmente a problemas desconocidos.

Método inspirado en AlphaZero XOT externaliza la búsqueda de estructuras de pensamiento

En concreto, XOT utiliza MCTS para buscar estructuras de pensamiento que puedan ayudar a resolver problemas. Durante la fase de entrenamiento, MCTS se utiliza para explorar posibles soluciones -estructuras de pensamiento- a una tarea específica, como un puzzle. Este proceso implica el registro de estados, valores y frecuencias de visita de los nodos de pensamiento en la búsqueda. A continuación, los datos registrados se utilizan para entrenar el modelo mediante el aprendizaje por refuerzo, con el fin de predecir posibles vías de solución satisfactorias -lo que elimina la necesidad de buscar en todo el árbol de soluciones para cada problema- y, en el mejor de los casos, el modelo puede generalizarse a nuevos problemas dentro del juego.

A continuación, el equipo vincula el modelo con el modelo lingüístico para proporcionarle estructuras de pensamiento que puedan resolver un problema planteado por el modelo lingüístico. En un proceso colaborativo, el modelo lingüístico revisa los pensamientos y las estructuras mentales y puede solicitar revisiones para mejorar la calidad de las soluciones. Con XOT, el modelo lingüístico ya no tiene que explorar y evaluar los pensamientos por sí mismo. Al utilizar el modelo externo, las exigencias al modelo lingüístico se reducen considerablemente en comparación con otros métodos.

XOT aporta un salto de rendimiento en los escenarios probados

Los investigadores probaron XOT en varias tareas desafiantes de resolución de problemas, incluyendo el Juego de 24, el 8-Puzzle y el Pocket Cube. Los resultados mostraron que XOT superaba significativamente a otros enfoques, incluso resolviendo problemas en los que otros métodos fallaban. Sin embargo, XOT no alcanzó el 100% de fiabilidad.

No obstante, el equipo considera que el marco XOT es un método prometedor para integrar conocimientos externos del dominio en la inferencia de modelos lingüísticos. Mejora el rendimiento, la eficacia y la flexibilidad al mismo tiempo, una combinación que no puede conseguirse con otros métodos, afirman.

Aún no se sabe si Microsoft tiene intención de utilizar el método para sus propios productos, ni cuándo. Es posible que Google Gemini utilice un método similar: el CEO de Google Deepmind, Demis Hassabis, reveló en una entrevista que les gustaría incorporar ideas de AlphaGo a Gemini.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo