2024-10-10 – Descubre cómo la compresión JPEG influye en el rendimiento de las redes neurales y cómo el nuevo enfoque denominado JPEG-DL está transformando el entrenamiento de modelos de aprendizaje profundo, mejorando la precisión y la robustez.
En un informe de 2022 llevado a cabo por la Universidad de Maryland y Facebook AI, se reveló que la compresión JPEG puede acarrear un castigo significativo en el rendimiento durante el entrenamiento de redes neuronales. Esto contrasta con investigaciones anteriores que sugerían que los modelos de aprendizaje profundo eran relativamente resistentes a los artefactos de compresión de imagen. Este nuevo hallazgo ha generado un intenso debate en la comunidad científica sobre la optimización de la calidad de imagen en las aplicaciones de inteligencia artificial.
Revolucionando el Entrenamiento de Modelos con JPEG-DL
Un año antes de este informe, surgió una nueva línea de pensamiento en la literatura científica, que planteaba que la compresión JPEG podría ser utilizada para obtener resultados mejorados en el entrenamiento de modelos. Sin embargo, a pesar de que los autores de esa investigación lograron resultados prometedores al entrenar imágenes JPEG de distintos niveles de calidad, el modelo propuesto resultaba ser excesivamente complejo y poco práctico para su implementación efectiva. Además, el uso de configuraciones predeterminadas de optimización JPEG (como la cuantización de imagen) se demostró ser un impedimento para la eficacia del entrenamiento.
En un proyecto posterior de 2023, titulado JPEG Compliant Compression for DNN Vision, se experimentó con un sistema que obtuvo resultados ligeramente mejores usando imágenes comprimidas JPEG mediante un modelo de red neuronal profunda (DNN) congelado. Sin embargo, congelar partes del modelo durante el entrenamiento tiende a disminuir su versatilidad y su capacidad para adaptarse a nuevos datos.
JPEG-DL: Una Nueva Alternativa
El enfoque más reciente de investigación, denominado JPEG Inspired Deep Learning (JPEG-DL), ofrece una arquitectura mucho más simple que puede ser integrada en modelos existentes. Los investigadores de la Universidad de Waterloo afirmaron que:
“Los resultados muestran que JPEG-DL supera significativamente y de manera consistente a la DL estándar en diversas arquitecturas de DNN, con un aumento despreciable en la complejidad del modelo.”
En particular, JPEG-DL incrementa la precisión de clasificación en hasta un 20.9% en conjuntos de datos de clasificación de detalles finos, añadiendo solo 128 parámetros ajustables al pipeline de DL. Además, se resaltó la superioridad de JPEG-DL en términos de robustez adversarial y la reducción en el tamaño de archivo de las imágenes de entrada.
Comprendiendo el Impacto de la Compresión
Los autores argumentan que un nivel óptimo de calidad de compresión JPEG puede facilitar que una red neuronal diferencie el sujeto central de una imagen. En un ejemplo, se observan los resultados base que difuminan un ave en el fondo, mientras que JPEG-DL logra destacar y delinear claramente el objeto central de la foto. Este fenómeno, que se denomina “la compresión ayuda”, se justifica por el hecho de que la compresión puede eliminar el ruido y las características de fondo molestas, resaltando así el objeto principal, lo que ayuda a las DNNs a realizar mejores predicciones.
Método de JPEG-DL
JPEG-DL introduce un cuantizador suave diferenciable, el cual reemplaza la operación de cuantización no diferenciable que se utiliza en la rutina estándar de optimización JPEG. Esta implementación permite una optimización basada en gradientes de las imágenes, algo que no es posible con la codificación JPEG convencional, que emplea un cuantizador uniforme seguido de operaciones de redondeo que acercan el coeficiente más cercano.
La diferenciabilidad en el esquema de JPEG-DL posibilita la optimización conjunta tanto de los parámetros del modelo en entrenamiento como del nivel de cuantización JPEG (nivel de compresión). Esta optimización conjunta asegura que el modelo y los datos de entrenamiento se ajusten mutuamente en un proceso end-to-end, sin la necesidad de congelar capas.
La Importancia del Formato Original de los Datos
A menudo se podría asumir que los datos en bruto son el material ideal para el entrenamiento, dado que las imágenes se descomprimen completamente en un espacio de color adecuado al ser procesadas en lotes. Sin embargo, dado que la compresión JPEG está optimizada para la visualización humana, se descartan áreas de detalle y color de manera que pueden resultar insatisfactorias para una red neuronal. En una imagen de un lago bajo un cielo azul, los niveles de compresión más altos se aplicarán al cielo, ya que este presenta un detalle no esencial.
De la Teoría a la Práctica: Evaluación de JPEG-DL
JPEG-DL ha sido evaluado en comparación con arquitecturas basadas en transformadores y redes neuronales convolucionales (CNN). Las arquitecturas utilizadas incluyeron modelos como EfficientFormer-L1, ResNet, VGG, MobileNet y ShuffleNet.
El rendimiento de JPEG-DL fue comparado en tareas avanzadas y se utilizaron conjuntos de datos relevantes como Stanford Dogs, Flowers, CUB-200-2011 (CalTech Birds) y Pets, asegurando una evaluación rigurosa.
A través de las pruebas realizadas en el conjunto de datos CIFAR-100 y tareas finas, el uso de diferentes magnitudes de Transformada Discreta del Coseno (DCT) en los enfoques de compresión JPEG fue gestionado con el optimizador Adam para adaptar la tasa de aprendizaje en la capa JPEG.
Resultados Prometedores en Imagenet-1K
Las pruebas realizadas sobre ImageNet-1K utilizaron PyTorch, con modelos centrales como SqueezeNet, ResNet-18 y ResNet-34. Para la evaluación de optimización de la capa JPEG, se empleó el descenso de gradiente estocástico (SGD) para lograr un rendimiento más estable.
Los resultados revelan que, en todos los modelos evaluados para CIFAR-100, JPEG-DL mostró consistentemente mejoras, con incrementos de hasta 1.53% en precisión top-1. Para las tareas de clasificación fina, se ofreció un notable aumento en el rendimiento, alcanzando mejoras de hasta 20.90% en todos los conjuntos de datos utilizados.
Conclusiones y Perspectivas Futuras
JPEG-DL está diseñado para ser utilizado en escenarios donde estén disponibles datos en bruto. Resulta intrigante considerar si algunos principios aplicados en este proyecto podrían ser utilizados en el entrenamiento de conjuntos de datos convencionales, que a menudo presentan contenido de menor calidad, como es habitual en conjuntos de datos a gran escala extraídos de internet.
La implementación efectiva de JPEG-DL podría abrir nuevas avenidas en la optimización de modelos de aprendizaje profundo, aunque el desafío residirá en abordar las dificultades de anotación mencionadas, tal como se ha discutido en investigaciones sobre reconocimiento de imágenes basado en tráfico.