Investigadores hallan imágenes de abusos a menores en datos de entrenamiento para generadores de imágenes de IA

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación0

Puntos Clave:

  1. Se encontraron más de 1.000 imágenes de abusos a menores en un conjunto de datos abierto utilizado para entrenar sistemas de inteligencia artificial.
  2. La presencia de estas imágenes podría permitir a los generadores de IA crear contenido nuevo y potencialmente realista de abuso infantil.
  3. La organización sin fines de lucro LAION retiró temporalmente los conjuntos de datos de Internet y aplicará una «política de tolerancia cero» con los contenidos ilegales.
  4. Se recomienda usar herramientas de detección y trabajar con organizaciones de protección de la infancia para cotejar futuros conjuntos de datos con listas conocidas de abusos sexuales a menores.

2023-12-21 21:15:40

Una investigación del Observatorio de Internet de Stanford (SIO) ha encontrado al menos 1.008 imágenes de abusos sexuales a menores (CSAM) en un conjunto de datos abierto de LAION.

Una investigación del Observatorio de Internet de Stanford (SIO) ha descubierto más de 1.000 imágenes de abusos a menores en un conjunto de datos abierto de LAION.

El conjunto de datos, conocido como LAION-5B, incluye enlaces a miles de millones de imágenes de diferentes fuentes, incluyendo redes sociales y sitios de contenido para adultos. Este conjunto de datos es comúnmente utilizado para entrenar sistemas de inteligencia artificial para generar imágenes.

Según el informe, la presencia de estas imágenes de abuso sexual a menores podría permitir que los generadores de IA basados en estos datos creen contenido nuevo y posiblemente realista de abuso infantil.

Los investigadores también han advertido que los generadores de imágenes basados en Stable Diffusion 1.5 son especialmente susceptibles a la generación de este tipo de contenido, y han recomendado detener su distribución. Se cree que la versión 2.0 es más segura, ya que el conjunto de datos ha sido filtrado en mayor medida en busca de contenido perjudicial y prohibido.

Además, se ha informado de un aumento del abuso infantil generado por IA, lo que dificulta la investigación de casos reales.

Las imágenes de CSAM en el conjunto de datos pueden permitir la generación de AI CSAM

La presencia de CSAM en el conjunto de datos podría permitir a los productos de IA basados en estos datos, como Stable Diffusion, crear contenido nuevo y potencialmente realista de abuso infantil.

Según el informe, los generadores de imágenes basados en Stable Diffusion 1.5 son especialmente vulnerables a la generación de este tipo de imágenes, por lo que debería detenerse su distribución. Se supone que Stable Diffusion 2.0 es más seguro porque el conjunto de datos de entrenamiento LAION se ha filtrado en mayor medida en busca de contenidos nocivos y prohibidos.

A finales de octubre, la Internet Watch Foundation (IWF) informó de un aumento del CSAM generado por IA. En el plazo de un mes, los analistas de IWF encontraron 20.254 imágenes generadas por IA en un único foro de CSAM en la web oscura. El CSAM generado por IA también es cada vez más realista, lo que dificulta la investigación de casos reales.

LAION retira conjuntos de datos de la web

LAION, la organización sin ánimo de lucro con sede en Alemania que está detrás del conjunto de datos, ha retirado temporalmente éste y otros conjuntos de datos de Internet. Los conjuntos de datos se limpiarán antes de volver a publicarlos. LAION aplica una «política de tolerancia cero» con los contenidos ilegales, según Bloomberg.

El informe de Stanford señala que las URL de las imágenes también se comunican a los organismos de protección de la infancia de EE.UU. y Canadá. El Observatorio de Internet sugiere utilizar herramientas de detección como PhotoDNA de Microsoft o trabajar con organizaciones de protección de la infancia para cotejar futuros conjuntos de datos con listas conocidas de CSAM.

El conjunto de datos LAION-5B ha sido criticado en el pasado por contener imágenes de pacientes. Si está interesado en lo que puede encontrar en el conjunto de datos, puede echar un vistazo al «He sido entrenado.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo