Los secretos del Nvidia B200 surgen de un nuevo análisis de latencia de 300 ciclos

Un análisis profundo de SemiAnalysis revela que desbloquear todo el potencial de la GPU Blackwell B200 de Nvidia depende menos de la potencia teórica del hardware y más de una sofisticada optimización de software.

Un informe detallado de micro-benchmarks de la firma de investigación de semiconductores SemiAnalysis ha proporcionado los primeros datos públicos de rendimiento de hardware para las GPU Blackwell B200 de Nvidia Corp., revelando una arquitectura cuyo inmenso potencial está limitado por el ajuste a nivel de software. El análisis descubrió un diseño de chip de doble matriz que impone una penalización de latencia de aproximadamente 300 ciclos para el acceso a datos entre matrices, un hallazgo que impacta directamente en cómo deben estructurarse los modelos de IA para ejecutarse de manera eficiente. Esto otorga un nuevo valor a la optimización de software, desafiando las estrategias de adquisición de los proveedores de infraestructura de IA a gran escala.

La investigación, basada en meses de micro-benchmarks sistemáticos, muestra que si bien la B200 puede acercarse a su rendimiento máximo teórico, "esto depende en gran medida de la configuración de la forma de la instrucción", según SemiAnalysis. La firma, que utilizó nodos B200 proporcionados por las empresas de la nube Nebius y Verda, encontró cuellos de botella significativos en el ancho de banda en escenarios específicos, una información crítica para los desarrolladores e inversores que apuestan por el dominio de Blackwell. Los hallazgos sugieren que el ecosistema de software de Nvidia sigue siendo su foso defensivo clave, ya que desbloquear la potencia del chip no está garantizado solo por las especificaciones de hardware.

Los cambios arquitectónicos clave respecto a la generación anterior Hopper incluyen la introducción de la Memoria Tensor (TMEM) para gestionar explícitamente los resultados de cómputo y una nueva instrucción 2SM MMA que permite que dos multiprocesadores de flujo (SM) trabajen juntos. El análisis también confirmó la topología de doble matriz de la B200 mediante ingeniería inversa del diseño físico del chip, identificando dos grupos distintos de SM con una clara brecha de latencia entre ellos. Esta variación en el diseño físico podría ser una fuente de no determinismo en el rendimiento entre GPU lógicamente idénticas.

Las implicaciones del informe son significativas para los competidores de Nvidia, incluido AMD, y clientes como Google y Amazon Web Services, que desarrollan sus propios aceleradores de IA personalizados como el TPU y Trainium, respectivamente. Para los centros de datos de IA, el análisis subraya que la compra de hardware B200 es solo el primer paso; alcanzar su valor total requerirá una inversión significativa en ingeniería de software para navegar por los matices arquitectónicos y las caídas de rendimiento identificadas en el informe.

El diseño de doble matriz expone una penalización de latencia de 300 ciclos

SemiAnalysis realizó ingeniería inversa de la topología física de la B200 midiendo la latencia de acceso entre cada SM en el chip. La matriz de distancia resultante mostró claramente dos grupos distintos de SM, donde la latencia media de acceso a la caché L2 entre grupos era más de 300 ciclos de reloj superior a la latencia dentro de un mismo grupo. Esta latencia es la penalización por acceder a datos en la matriz adyacente.

El mapeo de la firma reveló una distribución asimétrica de los Clústeres de Procesamiento de Textura (TPC) entre las dos matrices: una matriz contiene GPC (Clústeres de Procesamiento de Gráficos) de 10, 10, 10 y 9 TPC, mientras que la otra contiene 9, 9, 9 y una configuración dividida de 5+3. Esta diferencia física significa que incluso GPU configuradas idénticamente pueden exhibir variaciones de rendimiento basadas en cómo se programan las cargas de trabajo entre las distintas matrices.

El rendimiento de los Tensor Cores depende de la forma de la instrucción

El núcleo de la investigación se centró en el rendimiento de Matrix Multiply-Accumulate (MMA) de los Tensor Cores, crítico para las cargas de trabajo de IA. Los resultados muestran una fuerte dependencia de la "forma" de la instrucción, que define las dimensiones de las matrices que se multiplican. Para operaciones de un solo SM, una dimensión de matriz M=64 alcanzó solo el 50 por ciento del rendimiento máximo teórico, mientras que M=128 se acercó al 100 por ciento, confirmando que la forma más pequeña no logra utilizar la ruta de datos completa.

Además, cuando ambas matrices de entrada se almacenan en la memoria compartida (SMEM) —un escenario común— las pruebas revelaron un claro cuello de botella en el ancho de banda de SMEM para formas de matriz donde la dimensión N es menor que 128. Para una operación FP16, el acceso a SMEM requirió 48 ciclos, mientras que el cálculo matemático en sí solo tomó 32, lo que hace que la instrucción esté limitada por la memoria, no por el cómputo. La conclusión del informe es inequívoca: los desarrolladores deben utilizar la forma de instrucción más grande posible para un bloque de memoria dado para lograr el máximo rendimiento. Se descubrió que las nuevas instrucciones 2SM MMA, que abarcan dos SM, logran una escalabilidad débil perfecta, ofreciendo el doble de rendimiento con el doble de recursos.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.