OpenAI y Microsoft podrían tener problemas

24 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2023-12-28 11:47:55

La demanda presentada por el New York Times es dura. Los expertos creen que el NYT podría ganar el caso. En ese caso, la industria de la IA sufriría una gran sacudida.

Puntos Claves:

Demandas por infracción de derechos de autor y sus posibles impactos en la industria de la IA.
El tratamiento y uso de datos de medios de comunicación por parte de tecnologías de IA como ChatGPT y Bing Chat.
Proceso de modelado generativo y el debate en torno al «uso legítimo» dentro de la industria de IA.

Conflictos Legales sobre Derechos de Autor en la IA

El mundo de la inteligencia artificial (IA) enfrenta un gran desafío legal originado por una acción judicial del periódico New York Times (NYT) contra OpenAI y Microsoft. Se acusa a la IA de una reproducción muy exacta de contenidos periodísticos sin autorización, planteándose la posibilidad de que esta acusación cambie drásticamente el rumbo del sector de la IA, especialmente en lo que respecta a la reproducción de textos protegidos.

La problemática surge cuando se detecta que el modelo GPT-4 reproducía textos del NYT de manera detallada. A pesar de basarse en fragmentos proporcionados en las indicaciones, la preocupación por la infracción de derechos de autor es palpable. La agitación creada por estos hallazgos sugiere una revisión profunda de cómo las IA manejan datos sujetos a propiedad intelectual.

En el artículo original, el modelo lingüístico no operaba en modo de chat, sino a través de la API/Playground, como se diseñó inicialmente. En el ejemplo, el texto en rojo corresponde a una copia exacta de un artículo del New York Times, mientras que el texto en negro fue generado por el modelo. Esta dinámica se repite en la mayoría de los más de 100 ejemplos analizados.

En el contexto del modo de chat estándar de ChatGPT, es poco probable recibir una réplica textual de un artículo del New York Times como respuesta a un mensaje común debido a las estrictas normas de seguridad. Sin embargo, incluso la variante previamente mencionada podría considerarse una infracción de derechos de autor si el usuario insta al modelo a generar una copia idéntica.

Los ejemplos que involucran instrucciones del New York Times y que llevan al modelo a reproducir contenido presente en los datos de entrenamiento no desacreditan el argumento central de Big AI. Este argumento sostiene que el entrenamiento de IA constituye un uso transformador de los datos y, por lo tanto, un «uso legítimo». La discusión sobre la legalidad y ética de este enfoque está en pleno auge.

Cualquier resultado asociado al denominado «sobreajuste», resultado de un entrenamiento particularmente intensivo con datos de alta calidad, podría ser considerado por Microsoft y OpenAI como una cuestión solucionable mediante avances tecnológicos. La industria de la inteligencia artificial se encuentra en constante evolución, y el perfeccionamiento de estos modelos es una prioridad.

Es fundamental comprender que la verdadera intención de ChatGPT es generar texto novedoso en lugar de memorizar sus datos de entrenamiento. Este enfoque es esencial para garantizar la generación de contenido original y útil para los usuarios. Además, problemas similares de adaptación y reproducción de datos se presentan en otros ámbitos, como el procesamiento de imágenes, como es el caso de Midjourney.

Los chatbots con búsqueda web podrían ser una bestia diferente

Más problemáticos son los chatbots con búsqueda web que recorren sitios de noticias y reproducen el texto prácticamente sin cambios en la ventana de chat. Esta práctica plantea desafíos importantes tanto para los sitios de noticias como para los usuarios de estos servicios.

Los motores de búsqueda, por otro lado, siguen un principio similar, pero suelen ofrecer solo un fragmento muy breve del contenido y colocan el enlace al sitio del editor en la parte superior de los resultados. Esta es una estrategia que puede beneficiar tanto a los motores de búsqueda como a los editores de noticias.

Ambos lados pueden beneficiarse de este modelo de negocio, pero en el caso de los chatbots, el que obtiene más beneficios es, con mucho, el proveedor del chatbot. Los creadores de estos modelos son conscientes de este problema y han comenzado a abordarlo.

En el lanzamiento del plugin de navegador en marzo de 2023, OpenAI señaló su reconocimiento de que se trata de un nuevo método para interactuar con la web. Agradecieron los comentarios de la comunidad sobre formas adicionales de dirigir el tráfico de vuelta a las fuentes originales y contribuir a la salud general del ecosistema en línea.

El mismo problema se aplica a Bing Chat de Microsoft, que también copió artículos completos del New York Times según consta en el expediente del caso, y a Search Generative Experience de Google. Todos los principales proveedores de chatbots han reconocido el dilema, pero aún no han ofrecido soluciones concretas.

OpenAI llegó incluso a desconectar su función de navegación web debido a que el chatbot «inadvertidamente» superaba los cortafuegos de pago. Aunque se presentó como una medida de precaución, algunas voces críticas argumentan que fue una decisión apresurada. Para la mayoría de los editores, el contenido de pago representa solo una pequeña parte de sus ingresos, y el tráfico del sitio en su conjunto sigue siendo una preocupación más relevante.

Públicamente, los demandados insisten en que su conducta está protegida como «uso justo» porque su uso sin licencia de contenidos protegidos por derechos de autor para entrenar modelos GenAI sirve a un nuevo propósito «transformador». Pero no hay nada «transformador» en utilizar el contenido de The Times sin pagar para crear productos que sustituyen a The Times y le roban audiencia.
De la acusación

OpenAI limitó los resúmenes de las páginas web a unas 100 palabras cuando rediseñó la función de navegación de ChatGPT, presumiblemente para evitar este mismo debate sobre los derechos de autor. Una limitación que hace que la función de navegación sea en gran medida inútil.

Las alucinaciones de las IA dañan la marca NYT

El New York Times también ha formulado una acusación con respecto a Copilot de Microsoft (anteriormente conocido como Bing Chat). Se alega que ha estado difundiendo información que menciona al NYT, a pesar de que esta información nunca ha sido publicada por el periódico.

Por ejemplo, cuando se pregunta por una lista de 15 alimentos buenos para el corazón, haciendo referencia a un artículo del NYT sobre el tema, Copilot genera una lista de 15 alimentos que se supone fueron extraídos del artículo. Sin embargo, el artículo original no contiene dicha lista.

OpenAI y Microsoft podrian tener problemas 2023-12-28 11:47:55 — Imagen: Captura de pantalla de la acusación

En otro ejemplo, el New York Times solicitó un párrafo específico de un artículo, pero Copilot citó con seguridad ese párrafo, a pesar de que no estaba presente en el artículo. Esto subraya una limitación clave de los modelos lingüísticos: su dificultad para lograr una recuperación precisa de información, lo que los convierte en una opción poco efectiva como reemplazo de los motores de búsqueda.

El problema radica en que Microsoft no ha abordado esta percepción errónea, incluso promoviendo el chat como una alternativa a la búsqueda, a pesar del testimonio de Sundar Pichai en el tribunal. Las críticas de AlgorithmWatch sobre la información incorrecta en el chat de Bing no han llevado a ajustes. Estos ejemplos ilustran una cuestión más amplia en el mundo de la inteligencia artificial y la generación de lenguaje: la necesidad de abordar las limitaciones de los modelos existentes y considerar cuidadosamente su implementación en diferentes contextos.

En otro caso, el New York Times ilustra cómo GPT-3.5-turbo genera citas ficticias atribuidas al New York Times sobre un estudio inexistente que vincula el jugo de naranja con el linfoma no Hodgkin. Ficticias porque el estudio no existe.

La naturaleza del mensaje podría ser objeto de debate en los tribunales. El New York Times crea condiciones que aumentan la probabilidad de que el modelo lingüístico produzca resultados susceptibles de crítica.

1703769775 406 OpenAI y Microsoft podrian tener problemas 2023-12-28 11:47:55 — Imagen: Neyl Walecki vía X

¿Compite ChatGPT con el NYT?

Será interesante ver cómo valora el tribunal la cooperación de OpenAI con AP y Axel Springer. En particular, esta última cooperación implica que OpenAI distribuye noticias bajo licencia de los medios de Axel Springer a través de ChatGPT.

Esto es un claro indicio de que el NYT puede tener razón en su afirmación de que OpenAI quiere competir con los periódicos, o al menos llevarse un trozo del pastel como plataforma – similar a Google, que OpenAI probablemente ve como su competidor real.

IA versus Medios de Comunicación: El Futuro del Contenido Generativo

El litigio destaca, además, cómo la colaboración entre OpenAI y otras empresas de medios puede alterar el balance del mercado de noticias, insinuando que openAI busca obtener una porción significativa de la esfera mediática con ChatGPT. Curiosamente, el dinero parece haber sido un factor determinante para el NYT, cuyas demandas de una compensación «justa» por el uso de su contenido no culminaron en acuerdos satisfactorios.

El Sostenimiento de los Modelos Generativos de IA

En resumen, este caso refleja la amplia preocupación de cómo la IA generativa podría estar desestabilizando los modelos de negocio establecidos, utilizando trabajos protegidos para entrenar y operar sistemas de IA. De resultar en un fallo a favor del NYT, habría una conmoción significativa en la industria de la inteligencia artificial con la posible destrucción o reentrenamiento de modelos como GPT-4, cuestionando la viabilidad y legitimidad de usar libremente datos de Internet para el desarrollo de tecnologías generativas.

Los modelos fundacionales tienen un problema fundacional

En resumen, la IA generativa plantea un dilema crucial para la industria.

El NYT y otros argumentan que el uso de datos sin licencia socava los modelos de negocio originales. Esto podría llevar a cambios drásticos, como la destrucción o reentrenamiento de modelos como GPT-4.

Meta ha señalado la dificultad de licenciar datos a gran escala, lo que complica aún más la situación. La industria de la IA enfrenta desafíos económicos significativos, incluso sin considerar los costos potenciales de licencia de datos de entrenamiento. En una comunicación a la Oficina de Derechos de Autor de EE.UU. publicada en otoño, Meta calificaba de inasequible licenciar datos de entrenamiento a la escala necesaria. «De hecho, sería imposible que se desarrollara un mercado que permitiera a los desarrolladores de IA licenciar todos los datos que necesitan sus modelos».