2023-07-15 13:04:57
El último modelo de imagen CM3leon de Meta puede entender y generar tanto texto como imágenes. Puede crear imágenes a partir de descripciones de texto y componer texto basado en imágenes, lo que lo hace útil para muchas tareas.
CM3leon (pronunciado «camaleón») es un modelo de base única capaz de generar tanto texto a imagen como imagen a texto. Es el primer modelo multimodal entrenado con una receta adaptada a partir de modelos lingüísticos de sólo texto que puede introducir y generar tanto texto como imágenes.
La arquitectura de CM3Leon utiliza una red transformadora basada en un tokenizador sólo decodificador, similar a los modelos basados en texto. Se basa en trabajos anteriores (RA-CM3), utilizando una base de datos externa durante el entrenamiento con algo llamado «aumento de recuperación». Mientras que otros modelos sólo aprenden de los datos brutos que reciben, los modelos con aumento de la recuperación buscan activamente los datos más relevantes y diversos para su proceso de aprendizaje durante el entrenamiento, lo que hace que la fase de formación sea más sólida y eficiente.
Meta afirma que requiere cinco veces menos computación que los métodos anteriores basados en transformadores y menos datos de entrenamiento, lo que lo hace tan eficiente de entrenar como los modelos existentes basados en difusión.
Un camaleón multitarea
Gracias al ajuste de instrucciones multitarea a gran escala, CM3leon puede realizar diversas tareas, como la generación y edición de imágenes guiadas por texto, la generación de texto a imagen, la edición de imágenes guiadas por texto, la generación de pies de foto, la respuesta a preguntas visuales y la edición de imágenes guiada por estructuras.
«Sintonización de instrucciones» significa que el modelo está entrenado para seguir instrucciones dadas en formato de texto. Por ejemplo, usted podría proporcionar una instrucción como «describir una imagen de una puesta de sol sobre el océano», y el modelo de IA generará una descripción basada en esa instrucción. El modelo se ha entrenado con este tipo de ejemplos en la amplia variedad de tareas mencionadas anteriormente.
En la prueba comparativa de generación de imágenes (zero-shot MS-COCO), CM3leon alcanza una puntuación de distancia de inicio de Fréchet (FID) de 4,88, lo que supone un nuevo resultado de vanguardia y supera al modelo de imagen Parti de Google.
Más coherencia, más licencias, más metaverso
Según Meta, CM3leon destaca en la producción de imágenes coherentes que siguen mejor incluso instrucciones de entrada complejas. Puede recuperar mejor las formas globales y los detalles locales, generar texto o números tal y como aparecen en la instrucción y resolver tareas como la edición de imágenes guiada por texto, que antes requerían modelos especializados como Instruct Pix2Pix.
También puede escribir pies de foto detallados para las imágenes, por así decirlo, que pueden utilizarse para crear o editar imágenes, o para crear conjuntos de datos de entrenamiento sintéticos. Meta afirma que CM3leon iguala o supera a Flamingo y OpenFlamingo en tareas de texto, a pesar de haber sido entrenado con menos texto (3.000 millones de tokens de texto).
En particular, Meta afirma que el modelo se entrenó con un «nuevo gran conjunto de datos de Shutterstock que incluye sólo datos de imágenes y texto con licencia», pero sigue siendo muy competitivo en comparación con otros modelos.
«Como resultado, podemos evitar preocupaciones relacionadas con la propiedad y la atribución de imágenes sin sacrificar el rendimiento», escriben.
Según Meta, CM3leon es un paso hacia la generación y comprensión de imágenes de mayor fidelidad, que allana el camino para los modelos de lenguaje multimodal. Y sigue creyendo en el metaverso, afirmando que modelos como CM3leon «podrían ayudar en última instancia a impulsar la creatividad y mejores aplicaciones en el metaverso».