Estudio revela rápido aumento en dominios web bloqueando modelos de IA de los datos de entrenamiento.

16 Views 0

GuardarSavedRemoved 0

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0

Puntuación0

2024-07-22 10:18:07

Un análisis a gran escala revela que los modelos de IA están perdiendo acceso a sus datos de entrenamiento basados en la web, lo que podría afectar negativamente su desarrollo y rendimiento futuro.

El campo de la inteligencia artificial (IA) está en constante evolución, con nuevas tecnologías y aplicaciones que surgen a un ritmo acelerado. Sin embargo, un estudio reciente ha revelado una tendencia preocupante que podría obstaculizar el progreso de la IA: el rápido aumento de dominios web que bloquean el acceso de los modelos de IA a datos de entrenamiento.

La Iniciativa de Procedencia de Datos, un grupo académico independiente, llevó a cabo un estudio a gran escala que analizó el acceso a datos web para modelos de IA. El estudio encontró que, de abril de 2023 a abril de 2024, el porcentaje de tokens en estos conjuntos de datos bloqueados por completo para los rastreadores de IA aumentó de aproximadamente 1% a 5-7%. Los tokens son los componentes individuales de oraciones y palabras utilizados para entrenar modelos de IA.

Estudio revela rapido aumento en dominios web bloqueando modelos de 2024-07-22 10:18:07 — Los servicios web más comunes no corresponden a los casos de uso reales de ChatGPT, según los investigadores. Izquierda: Porcentaje de tokens por servicio web y su monetización a través de paywalls/publicidad. Derecha: Porcentaje de diferentes solicitudes de usuarios en WildChat, un conjunto de datos de interacciones de ChatGPT. | Imagen: Iniciativa de Procedencia de Datos

El aumento fue aún más significativo para las fuentes de datos clave, donde la proporción de tokens bloqueados aumentó de menos del 3% a 20-33%. Los investigadores predicen que esta tendencia continuará en los próximos meses. OpenAI enfrenta los bloqueos más frecuentes, seguido por Anthropic y Google.

Las implicaciones de esta tendencia

Esta tendencia de bloqueo de datos podría tener varias implicaciones negativas para el desarrollo de la IA. En primer lugar, podría dificultar o encarecer el entrenamiento de modelos de IA potentes y confiables. Los modelos de IA requieren grandes cantidades de datos de entrenamiento de alta calidad para aprender a realizar tareas de manera efectiva. Si el acceso a estos datos se restringe, podría ralentizar el progreso de la IA y limitar su potencial.

En segundo lugar, esta tendencia podría conducir a una mayor sesgo en los modelos de IA. Si los modelos de IA solo se entrenan en datos de un conjunto limitado de fuentes, es más probable que reflejen los sesgos de esas fuentes. Esto podría tener consecuencias negativas, como la discriminación o la toma de decisiones injustas.

Se necesitan soluciones para abordar esta tendencia de bloqueo de datos y garantizar que los modelos de IA tengan acceso a los datos de entrenamiento que necesitan para desarrollarse y funcionar de manera efectiva. Una posible solución es desarrollar nuevas técnicas de aprendizaje de IA que puedan aprender de datos limitados o incompletos. Otra solución es trabajar con los propietarios de sitios web para desarrollar acuerdos que permitan el acceso de los modelos de IA a sus datos bajo ciertas condiciones.

Conclusión

El estudio de la Iniciativa de Procedencia de Datos destaca un desafío importante para el desarrollo futuro de la IA. Es crucial encontrar soluciones a este problema para garantizar que la IA pueda seguir avanzando y beneficiando a la sociedad.

¿Qué opinas sobre esta tendencia de bloqueo de datos? ¿Qué crees que se puede hacer para abordarlo? Comparte tus pensamientos en los comentarios a continuación.

Fuentes:

Estudio de la Iniciativa de Procedencia de Datos

Estudio revela rápido aumento en dominios web bloqueando modelos de IA de los datos de entrenamiento.

Las implicaciones de esta tendencia

GPT-4o Mini vs. Claude Haiku vs. Gemini Flash: Una comparación de modelos de IA más económicos

Empresa de IA Cohere obtiene un impulso de $500 millones, aumenta su valor a $5.5 mil millones

Investigadores chinos utilizan LLMs para el control de drones militares

Aumento de pedidos del chip H20 de Nvidia tras la adopción de modelos de IA DeepSeek por empresas chinas.

Microsoft revela que los hackers pueden eludir 100 herramientas de IA sin necesidad de matemáticas complejas

Nuevo API de Black Forest Labs permite ajustar modelos Flux Pro con solo unos pocos ejemplos

Deje una respuesta Cancelar respuesta