
2023-08-27 13:29:20
Un estudio confirma los informes anecdóticos: ChatGPT puede alcanzar un rendimiento académico comparable al de los estudiantes.
A estudio publicado en Scientific Reports comparó el rendimiento de estudiantes y ChatGPT en las mismas tareas. En un experimento, se pidió primero a los instructores de la New York University Abu Dhabi (NYUAD) que proporcionaran diez preguntas de sus respectivas clases, junto con tres respuestas de estudiantes seleccionadas al azar para cada pregunta.
A continuación, los investigadores utilizaron ChatGPT para generar tres respuestas diferentes a cada pregunta. Las preguntas se introdujeron directamente en ChatGPT sin ningún contexto adicional.
En el estudio no queda claro si se utilizó GPT-3.5 o GPT-4, aunque GPT-4 se menciona en las referencias. Si se utilizó GPT-3.5, la calidad de las respuestas de la IA utilizando GPT-4 en su lugar podría ser mucho mejor, especialmente en lo que se refiere al razonamiento.
ChatGPT está al menos al mismo nivel en 9 de 32 temas
Una vez generadas las respuestas ChatGPT, se mezclaron con las respuestas de los estudiantes y fueron puntuadas por tres revisores diferentes. ChatGPT rindió igual o mejor que los estudiantes humanos en nueve de las 32 asignaturas. Estos nueve sujetos fueron
- Estructuras de datos
- Introducción a las políticas públicas
- Biología sintética cuantitativa
- Ciberguerra
- Programación orientada a objetos
- Estructura y propiedades de los materiales de ingeniería civil
- Biopsicología
- Clima/Cambio
- Gestión y organizaciones
La IA fue especialmente convincente en ámbitos en los que amplios conocimientos fácticos era necesario. En el curso «Introducción a la política pública», ChatGPT obtuvo de media más del doble de puntos que los alumnos. En cambio los estudiantes superaron a ChatGPT en tareas matemáticas y económicas que requerían mayores habilidades cognitivas.
Los detectores de texto de IA fallan
Los investigadores también probaron si podían distinguir de forma fiable el texto humano del texto de máquina utilizando el clasificador de texto de IA de OpenAI, que la empresa ha retirado desde entonces debido a su falta de fiabilidad, y GPTZero.
La herramienta de OpenAI clasificó erróneamente el cinco por ciento del texto humano como texto de máquina, mientras que GPTZero clasificó erróneamente el 18 por ciento. Se trata de un resultado desastroso, teniendo en cuenta las posibles consecuencias para los estudiantes implicados, que podrían ser acusados falsamente de hacer trampas.
Por el contrario, la herramienta OpenAI identificó como humano el 49% del texto generado por la máquina, frente al 32% de GPTZero. En ambos casos, la posibilidad de que el texto de la IA se haga pasar por texto humano es alta.
Este hallazgo es significativo en el contexto de los resultados de una encuesta realizada a 1.601 estudiantes y profesores de Brasil, India, Japón, Estados Unidos y Reino Unido que también formaba parte del estudio. El 74 por ciento de los alumnos quiere utilizar ChatGPT para sus trabajos. El 70 por ciento de los profesores quieren denunciar este uso como plagio si lo detectan.