Meta muestra cómo reducir las alucinaciones en ChatGPT & Co con ingeniería rápida

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-10-14 13:09:06

Cuando los ChatGPT & Co. tienen que comprobar ellos mismos sus respuestas, cometen menos errores, según un nuevo estudio de Meta.

ChatGPT y otros modelos lingüísticos reproducen repetidamente información incorrecta, incluso cuando han aprendido la información correcta. Existen varios enfoques para reducir las alucinaciones. Los investigadores de Meta AI presentan ahora Chain-of-Verification (CoVe), un método basado en instrucciones que reduce significativamente este problema.

El nuevo método se basa en la autoverificación del modelo lingüístico

reduccion IA alucinaciones 2023-10-14 13:09:06

Con CoVe, el chatbot responde primero a una pregunta del tipo «Nombra algunos políticos nacidos en Nueva York». A partir de esta respuesta, que a menudo ya contiene errores, el modelo lingüístico genera preguntas para verificar las afirmaciones, como «¿Dónde nació Donald Trump?».

Estas «preguntas de verificación» se ejecutan como una nueva pregunta, independiente de la primera entrada, para evitar la posible adopción de información incorrecta de la primera salida. A continuación, el modelo lingüístico verifica la primera entrada con los datos recogidos por separado. Todas las pruebas se realizaron con Llama 65B.

La verificación en cadena reduce significativamente las alucinaciones en los modelos lingüísticos

El equipo demuestra que las respuestas a preguntas individuales contienen muchos menos errores, lo que permite a CoVe mejorar significativamente el resultado final de una pregunta. En el caso de las preguntas basadas en listas, como el ejemplo del político, CoVe puede duplicar con creces la precisión, reduciendo significativamente la tasa de error.

En el caso de preguntas y respuestas más complejas, el método ofrece una mejora del 23%, e incluso en el caso de contenidos largos, CoVe aumenta la precisión en un 28%. Sin embargo, con contenidos más largos, el equipo también tiene que comprobar las respuestas de verificación para detectar incoherencias.

En sus pruebas, el equipo de Meta también puede demostrar que el ajuste de instrucciones y el estímulo de la cadena de pensamiento no reducen las alucinaciones, por lo que Llama 65B con CoVe supera al modelo más reciente, ajustado a las instrucciones, Llama 2. En contenidos más largos, el modelo con CoVe también supera a ChatGPT y PerplexityAI, que incluso puede recopilar hechos externos para sus generaciones. CoVe funciona enteramente con el conocimiento almacenado en el modelo.

En el futuro, sin embargo, el método podría mejorarse con conocimiento externo, por ejemplo, permitiendo que el modelo lingüístico responda a preguntas de verificación accediendo a una base de datos externa.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo