2023-08-28
Puntos destacados:
🔑 La integración de NVIDIA TensorRT ha sido clave para el éxito de SDXL.
🚀 El rendimiento de SDXL se duplicó al integrar TensorRT y el modelo ONNX convertido.
⚡️ El modelo optimizado con TensorRT ofrece una mejora significativa en la velocidad y accesibilidad en comparación con el modelo no optimizado.
El éxito de SDXL se debe a la integración de NVIDIA TensorRT, un framework de optimización de rendimiento de última generación y alto rendimiento. Nos enorgullece alojar las versiones de TensorRT de SDXL y poner los pesos ONNX abiertos a disposición de los usuarios de SDXL en todo el mundo.
Hemos visto un doble rendimiento en los chips NVIDIA H100 después de integrar TensorRT y el modelo ONNX convertido, generando imágenes de alta definición en solo 1.47 segundos. Con optimizaciones adicionales como la precisión de 8 bits, estamos seguros de que podemos aumentar tanto la velocidad como la accesibilidad de manera colaborativa.
A continuación, profundicemos en la referencia de rendimiento para medir la latencia y el rendimiento para comparar el modelo base (no optimizado) vs. el modelo optimizado de NVIDIA TensorRT en los aceleradores de GPU A10, A100 y H100. En cuanto a la latencia, el modelo de NVIDIA TensorRT (optimizado) es un 13%, 26% y 41% más rápido que el modelo base (no optimizado) en los aceleradores de GPU A10, A100 y H100, respectivamente. En cuanto al rendimiento, el modelo de NVIDIA TensorRT (optimizado) es un 20%, 33% y 70% mejor que el modelo base (no optimizado) para los aceleradores de GPU A10, A100 y H100, respectivamente.
Comparación de rendimiento de latencia
La integración de NVIDIA TensorRT ha sido fundamental para el éxito de SDXL. Estamos orgullosos de alojar las versiones de TensorRT de SDXL y ofrecer los pesos ONNX abiertos a los usuarios de SDXL en todo el mundo.
Después de integrar TensorRT y el modelo ONNX convertido, hemos experimentado un rendimiento duplicado en los chips NVIDIA H100, lo que nos ha permitido generar imágenes de alta definición en tan solo 1.47 segundos. Con optimizaciones adicionales, como la precisión de 8 bits, estamos seguros de que podemos mejorar tanto la velocidad como la accesibilidad de manera colaborativa.
Ahora, profundicemos en el rendimiento para medir la latencia y el rendimiento del modelo base (no optimizado) vs. el modelo optimizado de NVIDIA TensorRT en los aceleradores de GPU A10, A100 y H100. En términos de latencia, el modelo de NVIDIA TensorRT (optimizado) es un 13%, 26% y 41% más rápido que el modelo base (no optimizado) en los aceleradores de GPU A10, A100 y H100, respectivamente. En cuanto al rendimiento, el modelo de NVIDIA TensorRT (optimizado) es un 20%, 33% y 70% mejor que el modelo base (no optimizado) para los aceleradores de GPU A10, A100 y H100, respectivamente.
Es evidente que la integración de NVIDIA TensorRT ha tenido un impacto significativo en el rendimiento de SDXL, mejorando la velocidad y la accesibilidad. Estamos emocionados por las posibilidades futuras y el potencial de seguir colaborando en el desarrollo de soluciones de vanguardia en el campo de la inteligencia artificial.