2023-07-16 16:11:43
Stable Diffusion Reinforcement Learning: demostración de cómo entrenar eficazmente modelos generativos de IA para imágenes en tareas descendentes.
Los modelos de difusión son ahora estándar en la síntesis de imágenes y tienen aplicaciones en la síntesis artificial de proteínas, donde pueden ayudar en el diseño de fármacos. El proceso de difusión convierte el ruido aleatorio en un patrón, como una imagen o una estructura proteica.
Durante el entrenamiento, los modelos de difusión aprenden a reconstruir el contenido de forma incremental a partir de los datos de entrenamiento. Los investigadores intentan ahora intervenir en este proceso utilizando el aprendizaje por refuerzo para afinar los modelos generativos de IA con el fin de alcanzar objetivos específicos, como mejorar la calidad estética de las imágenes. Esto se inspira en el ajuste de grandes modelos lingüísticos, como el ChatGPT de OpenAI.
¿Aprendizaje por refuerzo para imágenes más estéticas?
Un nuevo artículo de Berkeley Scientific Intelligence Research examina la eficacia del aprendizaje por refuerzo mediante la optimización de políticas de difusión de denotadores (DDPO) para ajustarse a distintos objetivos.
El equipo entrena la Difusión Estable en cuatro tareas:
- Compresibilidad: ¿Cómo de fácil es comprimir la imagen utilizando el algoritmo JPEG? La recompensa es el tamaño negativo del archivo de la imagen (en kB) cuando se guarda como JPEG.
- Incompresibilidad: ¿Es difícil comprimir la imagen con el algoritmo JPEG? La recompensa es el tamaño de archivo positivo de la imagen (en kB) cuando se guarda como JPEG.
- Calidad estética: ¿Cómo de estética es la imagen para el ojo humano? La recompensa es el resultado del predictor estético LAION, que es una red neuronal entrenada en las preferencias humanas.
- Alineación de la imagen: ¿En qué medida representa la imagen lo que se pide en la solicitud? Esto es un poco más complicado: introducimos la imagen en LLaVA, le pedimos que describa la imagen, y luego calculamos la similitud entre esa descripción y la petición original usando BERTScore.
En sus pruebas, el equipo demostró que DDPO puede utilizarse eficazmente para optimizar las cuatro tareas. Además, demostraron cierta generalizabilidad: las optimizaciones para la calidad estética o la alineación de la imagen del aviso, por ejemplo, se realizaron para 45 especies animales comunes, pero también fueron transferibles a otras especies animales o a la representación de objetos inanimados.
El nuevo método no requiere datos de entrenamiento
Como es común en el aprendizaje por refuerzo, DDPO también muestra el fenómeno de sobreoptimización de la recompensa: el modelo destruye todo el contenido de imagen significativo en todas las tareas después de un cierto punto con el fin de maximizar la recompensa. Este problema debe investigarse en futuros trabajos.
Aun así, el método es prometedor: «Lo que hemos encontrado es una forma de entrenar eficazmente modelos de difusión de una manera que va más allá de la coincidencia de patrones – y sin requerir necesariamente ningún dato de entrenamiento. Las posibilidades sólo están limitadas por la calidad y la creatividad de tu función de recompensa».
Más información y ejemplos en Página del proyecto BAIR en DDPO.