2023-12-09 17:33:14
Puntos destacados:
📧 Mejora del 38% en la detección de spam en Gmail gracias a una nueva técnica.
🔒 Google combate el uso de homoglifos, caracteres invisibles y relleno de palabras clave en correos no deseados.
🔍 RETVec reduce la tasa de falsos positivos y el uso de unidades de procesamiento de tensores.
La lucha contra el correo no deseado es constante y en evolución. La nueva técnica de Gmail ha aumentado en un 38% la detección, gracias a una mejor identificación de texto.
Los spammers suelen utilizar homoglifos, caracteres invisibles, relleno de palabras clave y otras formas de manipulación de texto para evadir los sistemas de clasificación de Gmail, que identifican ataques de phishing, estafas y otro contenido dañino.
Google está utilizando RETVec (Vectorizador de Texto Resiliente y Eficiente) para combatir esto. Open sourced por Google Research, este enfoque «ayuda a los modelos a lograr un rendimiento de clasificación de vanguardia y reduce drásticamente el costo computacional», al tiempo que «admite todos los idiomas y todos los caracteres UTF-8 sin la necesidad de preprocesamiento de texto». Esto lo hace ideal para casos de uso en dispositivos, web y otros de gran escala:
- Los modelos entrenados con RETVec se pueden convertir fácilmente a TFLite para dispositivos móviles y de borde, como resultado de una implementación nativa en TensorFlow Text. Para la implementación del modelo en aplicaciones web, proporcionamos una implementación de capa TensorflowJS que está disponible en Github y puedes ver una página web de demostración que ejecuta un modelo basado en RETVec.
En Gmail, RETVec ha mejorado la «tasa de detección de correo no deseado por encima del valor base en un 38%», al tiempo que reduce tanto la tasa de falsos positivos (en un 19,4%) como el uso de la Unidad de Procesamiento de Tensores (en un 83%).
RETVec logra estas mejoras al tener un modelo de incrustación de palabras muy ligero (~200k parámetros), lo que nos permite reducir el tamaño del modelo Transformer con igual o mejor rendimiento, y tener la capacidad de dividir la computación entre el host y la TPU de manera eficiente en red y memoria.
Google dice que ha “probado exhaustivamente RETVec» durante el último año «y ha encontrado que es altamente efectivo para aplicaciones de seguridad y antirresistencia”.
Si desea utilizar RETVec para sus propios casos de uso o investigación, creamos un tutorial para ayudarlo a comenzar.