2023-07-18 10:26:34
Los programas informáticos que se utilizan para detectar redacciones, solicitudes de empleo y otros trabajos generados por inteligencia artificial pueden discriminar a las personas cuya lengua materna no es el inglés, afirman unos investigadores.
Las pruebas realizadas con siete detectores de texto de IA muy conocidos revelaron que los artículos escritos por personas que no hablaban inglés como lengua materna solían marcarse erróneamente como generados por IA, un sesgo que podría tener graves consecuencias para estudiantes, académicos y solicitantes de empleo.
Con el auge de ChatGPT, un programa de IA generativa que puede escribir redacciones, resolver problemas y crear código informático, muchos profesores consideran ahora la detección de IA como una «contramedida crítica para disuadir de una forma de hacer trampas del siglo XXI», afirman los investigadores, pero advierten de que la precisión del 99% que afirman tener algunos detectores es «engañosa en el mejor de los casos.»
Científicos dirigidos por James Zou, profesor asistente de ciencia de datos biomédicos en la Universidad de Stanford, pasaron 91 ensayos en inglés escritos por hablantes no nativos de inglés a través de siete detectores GPT populares para ver qué tan bien funcionaban los programas.
Más de la mitad de las redacciones, escritas para un examen de inglés ampliamente reconocido como el Test of English as a Foreign Language (TOEFL), fueron marcadas como generadas por IA, y un programa marcó el 98% de las redacciones como compuestas por IA. Cuando los ensayos escritos por alumnos nativos de octavo curso de inglés en Estados Unidos se sometieron a los programas, los mismos detectores de IA clasificaron más del 90% como generados por humanos.
Según el paper publicado de la revista Patrones, los científicos hallaron el origen de la discriminación en la forma en que los detectores evalúan lo que es humano y lo que es generado por la IA. Los programas se fijan en lo que se denomina «perplejidad textual», que es una medida de lo «sorprendido» o «confundido» que está un modelo de lenguaje generativo cuando intenta predecir la siguiente palabra de una frase. Si el modelo puede predecir la siguiente palabra con facilidad, la perplejidad del texto se califica de baja, pero si la siguiente palabra resulta difícil de predecir, la perplejidad del texto se califica de alta.
Los grandes modelos lingüísticos o LLM, como ChatGPT, se entrenan para producir textos de baja perplejidad, pero esto significa que si los humanos usan muchas palabras comunes en un patrón familiar en sus escritos, su trabajo corre el riesgo de ser confundido con un texto generado por IA. Según los investigadores, el riesgo es mayor en el caso de los hablantes no nativos de inglés, porque es más probable que utilicen palabras más sencillas.
Tras poner de relieve el sesgo incorporado en los programas detectores de IA, los científicos volvieron a ChatGPT y le pidieron que reescribiera los ensayos del TOEFL utilizando un lenguaje más sofisticado. Cuando estas redacciones editadas volvieron a pasar por los detectores de IA, todas fueron etiquetadas como escritas por humanos. «Paradójicamente, los detectores de GPT podrían obligar a los escritores no nativos a utilizar más la GPT para eludir la detección», afirman.
«Las implicaciones de los detectores de GPT para los escritores no nativos son graves, y tenemos que pensar en ellas para evitar situaciones de discriminación», advirtieron los autores en la revista. Según advierten, los detectores de IA podrían marcar falsamente las solicitudes de empleo y de estudios como generadas por GPT, y marginar a los hablantes de inglés no nativos en Internet, ya que los motores de búsqueda como Google rebajan la calificación de los contenidos que se consideran generados por IA. «En el ámbito de la educación, posiblemente el mercado más importante para los detectores de GPT, los estudiantes no nativos corren más riesgos de ser acusados falsamente de hacer trampas, lo que puede ser perjudicial para su carrera académica y su bienestar psicológico», añaden los investigadores.
En un artículo, Jahna Otterbacher, del Centro para la Transparencia Algorítmica de la Universidad Abierta de Chipre, afirmó: «En lugar de combatir la IA con más IA, debemos desarrollar una cultura académica que promueva el uso de la IA generativa de forma creativa y ética… ChatGPT está constantemente recopilando datos del público y aprendiendo a complacer a sus usuarios; con el tiempo, aprenderá a ser más listo que cualquier detector.»