2023-07-27 11:08:41
Puntos destacados:
- 🔍 Google actualiza su política de privacidad para revelar que utiliza datos públicos obtenidos de la web para entrenar sus servicios de IA.
- 🔄 La política ahora especifica que la información pública se utiliza para entrenar productos de IA de Google, pero no menciona cómo se evita la inclusión de materiales con derechos de autor.
- ⚖️ Las leyes de protección de datos y la competencia en el mercado han llevado a la cautela en la divulgación de datos de entrenamiento y han generado conflictos legales.
El lunes, Gizmodo encontró que Google actualizó su política de privacidad para revelar que sus diversos servicios de IA, como Bard y Cloud AI, pueden ser entrenados con datos públicos obtenidos de la web.
«Nuestra política de privacidad siempre ha sido transparente en el sentido de que Google utiliza información públicamente disponible de la web abierta para entrenar modelos de lenguaje para servicios como Google Translate», dijo la portavoz de Google, Christa Muldoon, a The Verge. «Esta última actualización simplemente aclara que también se incluyen servicios más nuevos como Bard. Incorporamos principios y salvaguardias de privacidad en el desarrollo de nuestras tecnologías de IA, en línea con nuestros Principios de IA».
Estos son los cambios más recientes en la política de privacidad de Google. La compañía ahora está admitiendo abiertamente dónde se utiliza tu información, al menos…
Después de la actualización del 1 de julio de 2023, la política de privacidad de Google ahora dice que «Google utiliza la información para mejorar nuestros servicios y desarrollar nuevos productos, características y tecnologías que benefician a nuestros usuarios y al público» y que la compañía puede «utilizar información públicamente disponible para ayudar a entrenar los modelos de IA de Google y construir productos y características como Google Translate, Bard y las capacidades de Cloud AI».
Puedes ver en el historial de revisiones de la política que la actualización brinda mayor claridad en cuanto a los servicios que se entrenarán utilizando los datos recopilados. Por ejemplo, el documento ahora dice que la información se puede utilizar para «modelos de IA» en lugar de «modelos de lenguaje», lo que otorga a Google más libertad para entrenar y construir sistemas además de LLM en tus datos públicos. Y hasta esa nota está enterrada bajo un enlace incrustado para las «fuentes de acceso público» debajo de la pestaña «Tu información local» de la política, que debes hacer clic para abrir la sección relevante.
La política actualizada especifica que se utiliza «información públicamente disponible» para entrenar los productos de IA de Google, pero no dice cómo (o si) la compañía evitará la inclusión de materiales con derechos de autor en ese conjunto de datos. Muchos sitios web de acceso público tienen políticas que prohíben la recopilación de datos o el raspado web con fines de entrenar grandes modelos de lenguaje y otras herramientas de IA. Será interesante ver cómo se desarrolla este enfoque con diversas regulaciones globales como el RGPD que protegen a las personas contra el mal uso de sus datos sin su permiso expreso.
La combinación de estas leyes y la creciente competencia en el mercado ha llevado a que los fabricantes de conocidos sistemas de IA generativa, como GPT-4 de OpenAI, sean extremadamente cautelosos respecto a la procedencia de los datos utilizados para su entrenamiento y si incluyen o no publicaciones en redes sociales o trabajos con derechos de autor de artistas y autores humanos.
La cuestión de si la doctrina del uso legítimo se aplica a este tipo de uso actualmente se encuentra en una zona gris legal. La incertidumbre ha provocado diversos litigios y ha llevado a los legisladores de algunos países a promulgar leyes más estrictas mejor preparadas para regular cómo las empresas de IA recopilan y utiliz