2023-08-09 15:47:29
El GPTBot de OpenAI rastrea la web en busca de contenido que pueda ser utilizado por modelos de IA. Si no quieres esto, puedes bloquear el bot.
El contenido que visita GPTBot puede utilizarse para mejorar futuros modelos de IA, según OpenAI. Aquellos que dan acceso a GPTBot a su contenido están ayudando a que los modelos de IA sean más precisos, capaces y seguros, escribe la empresa.
Impida que GPTBot rastree su sitio web
Si no desea compartir su contenido con los modelos de OpenAI de forma gratuita, puede bloquear GPTBot. Configurando «User-agent: GPTBot», puedes bloquear el bot para que no visite tu sitio o para que no visite carpetas o categorías individuales de tu sitio. De forma similar al bloqueo de un rastreador de Google, puede controlar GPTBot añadiéndolo a su archivo robots.txt con los siguientes comandos
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +
User-agent: GPTBot
Disallow: /
Example:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Según OpenAI, el contenido que se encuentra detrás de muros de pago, las páginas que solicitan información de identificación personal o que violan las directrices de contenido de OpenAI se filtran automáticamente. Las instrucciones completas están disponibles aquí.
ChatGPT y el dilema de los contenidos
Con el lanzamiento de la función de navegación web de ChatGPT, OpenAI anunció que los propietarios de sitios web, como los editores, podrían bloquear el robot de rastreo si no querían que su contenido se utilizara dentro o para ChatGPT.
Sin embargo, bloquear el bot significa no estar presente en un ecosistema de contenidos potencialmente emergente, un dilema similar a la (no) indexación en la búsqueda de Google, donde los proveedores de contenidos se convierten inadvertidamente en proveedores y dependientes económicamente de un ecosistema de terceros.
En el caso de los chatbots, sin embargo, la posición de partida para los proveedores de contenidos es aún menos favorable: Mientras que los motores de búsqueda están diseñados (en gran medida) para dirigir a los buscadores a sitios en los que puedan aportar valor al operador del sitio, los chatbots están optimizados para ofrecer a los buscadores las respuestas más directas y completas posibles directamente en el chat. Esto beneficia casi exclusivamente al proveedor del chatbot.
OpenAI no ofrece actualmente navegación web, tras el descubrimiento de que la navegación ChatGPT podría leer parcialmente el contenido detrás de los muros de pago y llevarlo al chat de forma gratuita. No se sabe cuándo volverá a estar online el plugin de navegación. Tal vez OpenAI esté preocupada por las repercusiones legales por las razones mencionadas anteriormente.
Meta, Microsoft y Google también entrenan a sus chatbots con material protegido por derechos de autor y extraen contenido de sitios web para introducirlo en sus chatbots sin más consentimiento. Al parecer, están en conversaciones con editores para cobrar miles de millones por el uso de sus contenidos.
Hasta ahora, los principales proveedores de chatbots, como Microsoft, se han esforzado, en el mejor de los casos, por mantener abierto el ecosistema web. La nueva búsqueda por IA de Google está diseñada para mantener a los usuarios en el ecosistema de Google mucho más tiempo que la búsqueda web tradicional.