2023-08-13 23:00:14
Puntos destacados:
👉 The New York Times actualizó sus términos de servicio para prohibir el uso de su contenido para entrenar sistemas de inteligencia artificial.
👉 Los modelos de IA dependen del contenido de los editores y hay preocupaciones de que se reproduzca sin permiso.
👉 Hay discusiones en curso entre compañías de IA y editores importantes para establecer acuerdos de licencia y garantizar la precisión del contenido generado por IA.
Entre los primeros casos de uso de la inteligencia artificial en las salas de redacción parece estar la lucha contra la propia IA.
El New York Times actualizó sus términos de servicio el 3 de agosto para prohibir el raspado de su contenido para entrenar sistemas de aprendizaje automático o IA.
El contenido incluye, entre otros, texto, fotografías, imágenes, ilustraciones, diseños, clips de audio, clips de video, «aspecto y sensación» y metadatos, incluido el proveedor acreditado de dicho contenido.
Los nuevos términos de servicio también prohíben a los rastreadores de sitios web, que permiten que las páginas se indexen para los resultados de búsqueda, usar contenido para entrenar LLMs o sistemas de IA.
El incumplimiento de estas reglas puede resultar en sanciones, según los términos y servicios, aunque no está claro cuáles serían las sanciones. Al ser contactado para este artículo, The New York Times dijo que no tenía ningún comentario adicional más allá de los términos de servicio.
«La mayoría de los términos de servicio incluyen restricciones sobre el raspado de datos, pero la referencia explícita al entrenamiento de IA es nueva», dijo Katie Gardner, socia de Gunderson Dettmer.

Los modelos de IA dependen del contenido y los datos, incluidos los artículos periodísticos y el arte con derechos de autor, como fuente principal de información para producir resultados. En algunos casos, este contenido se replica literalmente. Los editores, especialmente aquellos con muros de pago y negocios de suscripción sólidos, están preocupados de que los modelos de IA socaven sus fuentes de ingresos al publicar contenido reutilizado sin dar crédito y contribuyan a la desinformación, socavando la confianza de las personas en las noticias.
El confuso caso de los rastreadores
Los LLM, como ChatGPT, funcionan de manera similar a los rastreadores de sitios web que escanean el contenido de los sitios de los editores y alimentan su información para informar los resultados de búsqueda.
Aunque los editores pueden ver los rastreadores que visitan sus sitios, no pueden conocer sus propósitos exactos, ya sea para la optimización de motores de búsqueda o para el entrenamiento de modelos de IA. Según el informe de Digiday, algunas empresas tecnológicas de pago están buscando formas de bloquear los rastreadores.
Rastreadores como CommonCrawl, con un conjunto de datos de 3.15 mil millones de páginas web, han cerrado acuerdos con OpenAI, Meta y Google para el entrenamiento de IA, según The Decoder.
A principios de esta semana, OpenAI lanzó GPTBot, un rastreador web para mejorar los modelos de IA. Esto permitirá a los editores controlar el acceso de GPTBot a su contenido de sitio web. Sin embargo, los principales actores del campo, como Bing de Microsoft y Bard de Google, no han añadido esta funcionalidad a sus bots, lo que hace que los editores luchen por controlar lo que los rastreadores obtienen.
Mientras empresas tecnológicas como OpenAI se muestran reacias a revelar en qué entrenan sus modelos de IA, The Washington Post analizó el conjunto de datos C4 de Google, una versión más pequeña del conjunto de datos CommonCrawl, para comprender qué entrenaba a los modelos. Encontró evidencia de que se ha utilizado contenido de 15 millones de sitios web, incluido The New York Times, para entrenar LLM como LLaMAa de Meta y T5 de Google, un modelo de lenguaje de código abierto que ayuda a los desarrolladores a crear software para tareas de traducción.
Todo esto ha llevado a otros editores a reevaluar sus términos de servicio, según Chris Pedigo, vicepresidente senior de asuntos gubernamentales de la asociación de contenidos digitales, cuyos miembros incluyen The New York Times y The Washington Post.
Más acuerdos de licencia por venir
Aunque no está claro cómo responderán las compañías de IA a estos nuevos términos de servicio, tienen un interés personal en protegerse de repercusiones legales.
Como resultado, según Pedigo, se están llevando a cabo discusiones entre compañías de IA y editores importantes para establecer acuerdos de licencia, como el acuerdo entre OpenAI y The Associated Press.
Estos acuerdos están destinados principalmente a que las compañías de IA compensen a los editores por su contenido. Sin embargo, los editores desean ir más allá de los aspectos financieros.
Las negociaciones en curso buscan cómo citar a los editores por su contenido, incluyendo aspectos como notas a pie de página. Al mismo tiempo, se centran en establecer mecanismos como límites y procesos de verificación de hechos dentro de las compañías de IA para evitar la generación de contenido inexacto por parte de los LLM.
«Los editores no querrían estar asociados con eso, especialmente si van a tener un acuerdo de licencia», dijo Pedigo. «Los editores quieren asegurarse de que la información cumpla con el nivel de su marca».