
2024-10-28 – Un estudio de Cornell revela que el sistema de reconocimiento de voz Whisper de OpenAI crea contenido ficticio en un 1.4% de las grabaciones, lo que plantea preocupaciones significativas sobre su uso en contextos críticos.
Un reciente estudio realizado por investigadores de Cornell University ha revelado que el sistema de reconocimiento de voz de inteligencia artificial, Whisper, de OpenAI genera contenido falso en un sorprendente 1.4% de las grabaciones de audio. Aunque esta cifra parezca baja, el impacto potencial se magnifica al considerar el uso generalizado de este software. A medida que Whisper se utiliza millones de veces, el número de errores puede aumentar considerablemente, lo que plantea serias preocupaciones sobre su fiabilidad.
Problemas de calidad
Además del volumen de errores, la calidad del contenido fabricado también es alarmante. Según un informe de los investigadores, 38% del contenido inventado incluye elementos problemáticos, abarcando desde representaciones de violencia hasta atribuciones incorrectas y afirmaciones engañosas de autoridad. Este hallazgo subraya la necesidad de un análisis cuidadoso de lo que estas herramientas pueden producir.
Los problemas asociados a las pausas
El estudio subraya que las pausas más largas en el habla son una de las principales causas de este fenómeno. Cuando se produce un vacío en el audio, Whisper intenta «rellenar» ese espacio en función de su conocimiento del lenguaje, lo cual puede desembocar en errores serios. Este desafío se agrava en personas que sufren trastornos del habla, como la afasia, quienes tienden a hacer pausas con mayor frecuencia. En estos casos, la tasa de error alcanza el 1.7% en comparación con el 1.2% del grupo de control. Esto sirve como un recordatorio de que las sesgos y limitaciones de la inteligencia artificial pueden tener consecuencias reales para comunidades ya marginadas.
Otras investigaciones, como se ha documentado según la AP, han evidenciado problemas similares. Por ejemplo, un investigador de la Universidad de Michigan descubrió contenido fabricado en el 80% de las transcripciones analizadas, mientras que un ingeniero de machine learning encontró errores en aproximadamente la mitad de más de 100 horas de grabaciones analizadas. Además, otro desarrollador reportó fallos en casi todos sus 26,000 transcripciones.
Limitaciones reconocidas por OpenAI
OpenAI ha reconocido estas limitaciones y aconseja no utilizar Whisper en «dominios de alto riesgo, como contextos de toma de decisiones, donde los errores en la precisión pueden desencadenar fallos severos en los resultados.» La última versión del modelo, Whisper v3, también presenta problemas de alucinaciones. OpenAI sugiere que estas ocurren «debido a que, dado su conocimiento general del lenguaje, los modelos combinan la tarea de prever la siguiente palabra en el audio con el intento de transcribir el audio en sí.»
Alucinaciones: Un rasgo universal de la IA generativa
Es bien conocido que herramientas de IA como Whisper generan alucinaciones de la misma manera que ChatGPT, pero no siempre se es consciente de ello. Recientemente, ha habido un aumento en el interés por podcasts generados por IA, lo que demuestra que esta problemática no es del todo conocida.
Herramientas como Audio Overviews de NotebookLM permiten desarrollar breves temas en discusiones extensas, dejando más margen para errores. Con voces artificialmente naturales, la tendencia a aceptar estos resultados como ciertos se vuelve preocupante.
Es importante destacar que los podcasts generados por IA no son inherentemente negativos o inútiles. Pueden ser muy útiles para crear contenidos educativos, siempre que el material sea revisado de manera exhaustiva. Sin embargo, confiar en ellos para adquirir nueva información sin verificación es un enfoque riesgoso.
La necesidad de supervisión humana
La conclusión crucial es que la supervisión humana es fundamental para cualquier tipo de contenido generado por IA, ya sea texto, transcripciones o podcasts. Se requiere la participación de expertos en el tema para revisar y validar el contenido producido. Con la tecnología actual, depositar una confianza ciega en el contenido generado por IA es un método seguro para permitir que los errores se cuelen en el proceso, independientemente del formato.