2023-08-06 14:06:36
Según un estudio del University College de Londres, los humanos sólo pueden detectar el habla falsa el 73% de las veces, con la misma precisión para hablantes de inglés y mandarín.
Utilizando un algoritmo de conversión de texto a voz, los investigadores generaron 50 muestras de voz falsa en cada idioma y las reprodujeron a 529 participantes.
Alrededor del 27% de las veces, los oyentes pensaron que el discurso falso era real. Un tratamiento de familiarización sólo aumentó la precisión del reconocimiento en una media del 3,84 por ciento, y escuchar los fragmentos varias veces o escuchar fragmentos más cortos tampoco ayudó.
Esto significa, por ejemplo, que una de cada cuatro estafas telefónicas podría tener éxito. Aunque hay otros factores en juego, como escuchar una voz que ya conoces, que probablemente es más fácil de reconocer como falsa (pero aún más peligrosa si no la conoces).
Reconocer el habla falsa será cada vez más difícil
Sin embargo, los investigadores prevén que, en el futuro, el habla falsa mejorará y será más realista, lo que dificultará aún más su detección. Ni siquiera utilizaron la última tecnología para su estudio.
«La dificultad de detectar deepfakes del habla confirma su potencial de uso indebido y señala que se necesitan defensas contra esta amenaza».
El estudio, cuyo título es muy directo: «Warning: Humans cannot reliably detect speech deepfakes», plantea dudas sobre la capacidad de detectar audio deepfake de forma consistente, incluso con entrenamiento: «Nuestros resultados sugieren la necesidad de detectores automatizados para mitigar las debilidades del oyente humano».
Aunque los detectores automatizados de deepfakes tienen limitaciones, mejorar estos sistemas es esencial para mitigar las amenazas potenciales que plantean los contenidos deepfake, afirma la autora principal Kimberly Mai. En comparación con los vídeos deepfake, el audio deepfake tiene aún menos pistas para identificarlo como falso.
«Demostramos que incluso en un entorno controlado donde la tarea es más fácil (los participantes son conscientes de la presencia de deepfakes de voz y los deepfakes no se crean utilizando sintetizadores de voz de última generación), la detección de deepfake no es alta».
Una cosa interesante que descubrieron los investigadores fue que las personas que clasificaron correctamente los enunciados reales como legítimos y las que los clasificaron incorrectamente como falsos tendían a enfatizar las mismas características, como las pausas, los tonos, etcétera. Así pues, la intuición de las personas desempeñaba un papel clave en su proceso de toma de decisiones, y a menudo utilizaban palabras como «naturalidad» o «robótico» para explicar sus elecciones.
En términos de rendimiento general, la combinación de múltiples juicios humanos, denominada en el estudio rendimiento de la multitud, estaba a la par con los mejores detectores automatizados y era menos probable que fallara cuando cambiaban las condiciones.