El modelo básico de Meta para la visión por ordenador ya es de código abierto

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+1

2023-08-31 17:01:08

Actualización, 31 de agosto de 2023:

Meta publica su modelo de visión por ordenador DINOv2 bajo la licencia Apache 2.0 para dar a los desarrolladores e investigadores más flexibilidad para tareas posteriores. Meta también publica una colección de modelos de predicción densa basados en DINOv2 para la segmentación semántica de imágenes y la estimación monocular de la profundidad.

Meta también presenta FACET, una referencia para evaluar la equidad de los modelos de visión por ordenador en tareas como la clasificación y la segmentación. El conjunto de datos incluye 32.000 imágenes de 50.000 personas, con atributos demográficos como el sexo percibido y el grupo de edad, además de características físicas.

FACET pretende convertirse en una referencia estándar para evaluar la imparcialidad de los modelos de visión por ordenador y fomentar el diseño y desarrollo de modelos que tengan más en cuenta a las personas.

Artículo original del 18 de abril de 2023:

Metas DINOv2 es un modelo de base para la visión por ordenador. La empresa muestra sus puntos fuertes y quiere combinar DINOv2 con grandes modelos lingüísticos.

En mayo de 2021, los investigadores de IA de Meta presentaron DINO (autodestilación sin etiquetas), un modelo de IA entrenado y autosupervisado para tareas de imagen como la clasificación o la segmentación. Con DINOv2, Meta lanza ahora una versión significativamente mejorada.

Al igual que DINO, DINOv2 es un modelo de visión por ordenador entrenado mediante aprendizaje autosupervisado y, según Meta, su rendimiento es igual o mejor que el de la mayoría de los sistemas especializados actuales en todas las tareas evaluadas. Debido al aprendizaje auto-supervisado, no se requieren datos etiquetados, y los modelos DINO pueden ser entrenados en grandes conjuntos de datos de imágenes sin etiquetar.

DINOv2 es un bloque de construcción para todas las tareas de visión por ordenador

«DINOv2 proporciona características de alto rendimiento que pueden utilizarse directamente como entradas para clasificadores lineales sencillos», afirma Meta. Esto convierte a DINOv2 en una herramienta flexible y versátil para una amplia gama de tareas de visión por ordenador, desde tareas visuales a nivel de imagen (clasificación de imágenes, recuperación de instancias, comprensión de vídeos) hasta tareas visuales a nivel de píxel (estimación de profundidad, segmentación semántica).

Según Meta, los modelos DINOv2 podrían ser útiles para diversas aplicaciones, como la cartografía forestal con el Instituto de Recursos Mundiales, la estimación de la densidad y abundancia de animales y la investigación biológica, como la microscopía celular.

Para el entrenamiento, Meta recopiló 1.200 millones de imágenes y filtró y equilibró el conjunto de datos. Al final, DINOv2 se entrenó con 142 millones de imágenes. Al igual que su predecesor, DINOv2 se basa en Vision Transformers.

Meta quiere vincular DINOv2 con grandes modelos lingüísticos

DINOv2 complementa el trabajo de Meta en visión por computador, en particular «Segment Anything», un modelo recientemente lanzado para la segmentación de imágenes de disparo cero con capacidades rápidas. Meta ve DINOv2 como un bloque de construcción que se puede vincular a otros clasificadores para su uso en muchas áreas más allá de la segmentación.

La empresa está liberando el código y algunos modelos de la familia DINOv2. La empresa planea ahora integrar DINOv2 en un sistema de IA más complejo que pueda interactuar con grandes modelos lingüísticos. «Una columna vertebral visual que proporcione información enriquecida sobre las imágenes permitirá a los sistemas complejos de IA razonar sobre las imágenes de una manera más profunda que describiéndolas con una sola frase de texto.»

Modelos como CLIP, que se entrenarían con pares imagen-texto, estarían limitados en última instancia por los pies de foto, dijo. «Con DINOv2, no existe esa limitación incorporada».

Más información en la página del proyecto. También hay demos para DINOv2. El código y los puntos de control están disponibles en Github.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo