OpinionGPT demuestra el impacto de los datos de entrenamiento en el sesgo de la IA

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

2023-09-11 12:28:47

Los investigadores publican OpinionGPT, un modelo lingüístico y demo web que demuestra el significativo impacto de los datos de entrenamiento en los modelos lingüísticos de IA.

Para el experimento, el equipo de investigación de la Universidad Humboldt de Berlín entrenó el modelo LLaMa V1 de Meta, de 7.000 millones de parámetros, con datos seleccionados de Reddit sobre dimensiones sociales específicas como política, geografía, género y edad.

Los datos procedían de los denominados subreddits «AskX», en los que los usuarios formulan preguntas a otras personas en función de características demográficas específicas, como «Pregúntale a un alemán» o «Pregúntale a un izquierdista», entre otras. Los investigadores seleccionaron el conjunto de datos para el ajuste fino a partir de 13 subreddits de este tipo.

Todos los sesgos a la vez

Los investigadores ponen a disposición el LLM ajustado y los sesgos previamente categorizados a través de una interfaz web. Para lograrlo, el equipo integró los sesgos categorizados en el modelo para el entrenamiento y la inferencia.

Curiosamente, el equipo probó y evaluó cualitativamente diferentes variantes de este llamado «aviso específico de sesgo». Al final, un aviso minimalista que repetía tres veces el nombre del subreddit donde se originó el sesgo resultó ser el más eficaz.

Durante el entrenamiento, el modelo aprendió a distinguir entre diferentes sesgos. En el demo webel usuario puede alternar entre diferentes sesgos o los datos demográficos típicos del sesgo para obtener un argumento en la línea del sesgo.

Utilizar los prejuicios para explorar los prejuicios

Por ejemplo, cuando se les pregunta si tienen sentido unas leyes de armas más estrictas, los «estadounidenses» dicen que no creen que sea necesario que un ciudadano respetuoso con la ley posea un AK-47, mientras que los «ancianos» hacen hincapié en el derecho a poseer armas.

Esta pregunta sobre las leyes de armas también muestra el problema del experimento: pretende estudiar los sesgos de los LLM, pero al mismo tiempo los fomenta porque no hay ni «el americano» que esté a favor de leyes de armas más estrictas, ni «la gente mayor» que apoye normas menos estrictas.

OpinionGPT demuestra el impacto de los datos de entrenamiento en 2023-09-11 12:28:47
Imagen: Haller et al.

Los investigadores lo señalan en su artículo: En general, el modelo consigue representar sesgos matizados. Sin embargo, no representa toda la demografía dada en una categoría, sino más bien la variante Reddit de esa demografía.

«Por ejemplo, las respuestas de ‘estadounidenses’ deberían entenderse mejor como ‘estadounidenses que publican en Reddit’, o incluso ‘estadounidenses que publican en este subreddit en particular'», dice el preprint. Los investigadores también señalan que el LLM puede confundir los sesgos, lo que supone un reto para futuras investigaciones.

Para abordar estos retos, el equipo planea explorar formas más complejas de sesgo en futuras versiones más sofisticadas de OpinionGPT.

En concreto, podrían representarse en las respuestas combinaciones de distintos sesgos, como la diferencia entre «estadounidenses conservadores» y «estadounidenses liberales». Esto permitiría al modelo generar respuestas más matizadas que reflejen con mayor precisión los diferentes sesgos.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo