La GPU Nvidia Blackwell puede ejecutar modelos a nivel GPT-4 hasta 30 veces más rápido

Añadir a tus IAs favoritasQuitar de tus favoritasQuitar de favoritos 0
Puntuación+2

2024-03-19 21:13:32

El GTC 2024 de Nvidia gira entorno a la inteligencia artificial generativa – y el hardware que hace posible el auge actual. Con la próxima generación de Blackwell, Nvidia planea establecer nuevos estándares.

Según el CEO de Nvidia, Jensen Huang, Blackwell será la fuerza impulsora detrás de la nueva revolución industrial. La plataforma promete habilitar la inteligencia artificial generativa con modelos de lenguaje grandes de hasta varios billones de parámetros.

Según Nvidia, la arquitectura incluye el chip más potente del mundo con 208 mil millones de transistores. Específicamente, Blackwell combina dos dies fabricados utilizando el proceso 4NP de TSMC con una velocidad de conexión de 10TB/segundo, lo que les permite operar como una sola GPU CUDA. Además, Blackwell incluye un Motor Transformer de segunda generación que permite aplicaciones de IA con precisión FP4, tecnología de comunicación NVLink mejorada para el intercambio de datos entre hasta 576 GPUs, y un nuevo Motor RAS que permite el mantenimiento predictivo de IA, entre otras características. También se ha diseñado un motor de descompresión dedicado para acelerar consultas a bases de datos.

La GPU Blackwell proporcionará una potencia informática de IA de 10 petaFLOPS en FP8 y 20 petaFLOPS en FP4. Al utilizar el nuevo Motor Transformer con el llamado «Escalamiento de Micro Tensor», se logra el doble de potencia informática, el doble de tamaño de modelo y el doble de ancho de banda. El chip también está equipado con 192 gigabytes de memoria HBM3e.

En comparación con la GPU H100, se dice que Blackwell ofrece cuatro veces el rendimiento de entrenamiento, hasta 25 veces la eficiencia energética y hasta 30 veces el rendimiento de inferencia. Esto último es una clara señal de que Nvidia está desafiando a la competencia de chips enfocados en inferencia que actualmente intentan robar cuota de mercado al líder del mercado. Sin embargo, este rendimiento solo se logra con modelos de mezcla de expertos como GPT-4; con modelos clásicos de transformación grandes como GPT-3, el salto es de 7 veces. Sin embargo, los modelos MoE son cada vez más importantes, Gemini de Google también se basa en este principio. Este gran salto es posible gracias al nuevo NVLink y NVLink Switch 7.2, que permiten una comunicación más eficiente entre GPUs, antes un cuello de botella en los modelos MoE.

Nvidia espera que la plataforma Blackwell sea utilizada por casi todos los principales proveedores de nube y fabricantes de servidores. Empresas como Amazon Web Services, Google, Meta, Microsoft y OpenAI estarán entre los primeros en implementar Blackwell.

Nuevo DGX SuperPOD con 11.5 ExaFLOPs

La nueva generación también incluye una nueva versión del DGX SuperPOD. El DGX SuperPOD cuenta con una nueva arquitectura de rack a escala de rack altamente eficiente y refrigerada por líquido, y ofrece un rendimiento informático de supercomputación de IA de precisión FP4 de 11.5 ExaFLOPS y 240 terabytes de memoria rápida. El sistema puede escalar a decenas de miles de chips con racks adicionales.

En el corazón del SuperPOD se encuentra un GB200 NVL72, que conecta 36 chips supercomputadoras Nvidia GB200, cada uno con 36 CPUs Grace y 72 GPUs Blackwell a través del quinta generación de NVLink de Nvidia para formar un supercomputadora. Según Nvidia, los Super Chips GB200 ofrecen hasta 30 veces el rendimiento del mismo número de GPUs Tensor Core H100 de Nvidia para cargas de trabajo de inferencia con modelos de lenguaje grandes.

Un solo DGX GB200 NVL72 es – gracias al nuevo chip NVLink – básicamente «una GPU gigante», dijo Huang. Ofrece 720 PetaFLOPS para entrenamiento FP8 y 1,44 ExaFLOPS para inferencia en FP4.

Nvidia también presentó el sistema DGX B200, una plataforma para el entrenamiento, ajuste e inferencia de modelos de IA. El DGX B200 es la sexta generación del diseño DGX refrigerado por aire y conecta ocho GPUs B200 Tensor Core a CPUs. Ambos sistemas estarán disponibles más adelante este año.

Deja una opinión

      Deje una respuesta

      🤖 AI MAFIA
      Logo