2023-09-02 13:59:16
CLIPN enseña a CLIP la «semántica de las negaciones». Esto debería ayudar a la visión por ordenador a reconocer clases que no formaban parte de los datos de entrenamiento.
Los modelos de visión por ordenador reconocen objetos en las imágenes sobre las que han sido entrenados. Sin embargo, en aplicaciones reales, estos modelos a menudo encuentran objetos desconocidos fuera de sus datos de entrenamiento, lo que conduce a resultados pobres. Los investigadores de IA han propuesto varias técnicas para permitir que los modelos de IA reconozcan cuando la entrada está «fuera de distribución» (OOD, por sus siglas en inglés), es decir, de clases desconocidas no vistas durante el entrenamiento. Sin embargo, los métodos existentes tienen limitaciones a la hora de identificar ejemplos OOD que se parezcan a clases conocidas.
Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong han desarrollado una nueva técnica llamada CLIPN que pretende mejorar la detección de OOD enseñando al conocido modelo CLIP a rechazar entradas desconocidas. La idea básica es utilizar pistas de texto tanto positivas como negativas junto con técnicas de entrenamiento definidas por el usuario para dar a CLIP una idea de cuándo una entrada es OOD.
El reto: desconocidos difíciles de distinguir
Supongamos que un modelo se ha entrenado con imágenes de gatos y perros. Si se le pide que procese una imagen de una ardilla, la ardilla es una clase fuera de distribución porque no pertenece a las clases conocidas de gatos y perros.
Muchos métodos de detección de OOD evalúan en qué medida una entrada coincide con clases conocidas. Sin embargo, estos métodos pueden clasificar erróneamente la imagen de la ardilla como un gato o un perro porque tiene (algunas) similitudes visuales.
Por lo tanto, CLIPN amplía CLIP con nuevos mensajes «no» y codificadores de texto «no» aprendibles para capturar la semántica de las negaciones. De este modo, CLIP aprende cuándo y cómo decir «no» para reconocer cuándo una imagen queda fuera de sus clases conocidas. Por ejemplo, la técnica CLIPN enseña al modelo a decir «No, eso no es un gato/perro» en el caso de la ardilla, marcando la clase como OOD.
En los experimentos, el equipo demuestra que CLIPN identifica ejemplos OOD que CLIP estándar no identifica. Según los investigadores, CLIPN mejora la detección de OOD en 9 conjuntos de datos de referencia hasta casi un 12% en comparación con los métodos existentes.
Sin embargo, afirman que aún no está claro si el método funciona en conjuntos de datos especializados, como imágenes médicas o de satélite, y si es adecuado para otras aplicaciones, como la segmentación de imágenes.