2023-10-03 06:20:36
Puntos destacados:
– 📢 Google anuncia una herramienta para que los editores de sitios web puedan optar por no permitir que sus datos se utilicen para entrenar los modelos de IA de la compañía, al tiempo que siguen siendo accesibles a través de la Búsqueda de Google.
– 🔀 La nueva herramienta, llamada Google-Extended, permite a los sitios web seguir siendo rastreados e indexados por los rastreadores como Googlebot, pero evita que sus datos se utilicen para entrenar modelos de IA.
– 🔒 Los editores de sitios web podrán controlar el acceso a su contenido utilizando Google-Extended a través de robots.txt.
Google acaba de anunciar que está brindando a los editores de sitios web una forma de optar por no permitir que se utilicen sus datos para entrenar los modelos de IA de la compañía, al tiempo que siguen siendo accesibles a través de la Búsqueda de Google. La nueva herramienta, llamada Google-Extended, permite a los sitios seguir siendo rastreados e indexados por rastreadores como el Googlebot, pero evita que se utilicen sus datos para entrenar los modelos de IA a medida que se desarrollan con el tiempo.
La compañía señala que Google-Extended permitirá a los editores «administrar si sus sitios web ayudan a mejorar las APIs generativas de Bard y Vertex AI«, y agrega que los editores pueden utilizar la opción para «controlar el acceso al contenido de un sitio». Google confirmó en julio que está entrenando a su chatbot de IA, Bard, con datos públicamente disponibles extraídos de la web.
Google-Extended está disponible a través de robots.txt, también conocido como el archivo de texto que informa a los rastreadores web si pueden acceder a ciertos sitios. Google señala que «a medida que las aplicaciones de IA se expandan», seguirá explorando «enfoques adicionales legibles por máquina para la elección y el control de los editores de sitios web» y que pronto tendrá más información para compartir.
Ya muchos sitios han bloqueado el rastreador web que utiliza OpenAI para extraer datos y entrenar a ChatGPT, incluyendo The New York Times, CNN, Reuters y Medium. Sin embargo, ha habido preocupaciones sobre cómo bloquear a Google. Después de todo, los sitios web no pueden cerrar completamente los rastreadores de Google, o de lo contrario no serán indexados en la búsqueda. Esto ha llevado a algunos sitios, como The New York Times, a bloquear legalmente a Google actualizando sus términos de servicio para prohibir que las empresas utilicen su contenido para entrenar a la IA.