Les secrets du Nvidia B200 émergent d'une nouvelle analyse de latence de 300 cycles

Une analyse approfondie de SemiAnalysis révèle que pour libérer tout le potentiel du GPU Blackwell B200 de Nvidia, il s'agit moins de la puissance théorique du matériel que d'une optimisation logicielle sophistiquée.

Un rapport détaillé de micro-benchmark de la firme de recherche en semi-conducteurs SemiAnalysis a fourni les premières données publiques sur les performances matérielles des GPU Blackwell B200 de Nvidia Corp., révélant une architecture dont l'immense potentiel est limité par le réglage au niveau logiciel. L'analyse a découvert une configuration de puce à double die qui impose une pénalité de latence d'environ 300 cycles pour l'accès aux données entre les deux puces, une découverte qui impacte directement la manière dont les modèles d'IA doivent être structurés pour fonctionner efficacement. Cela place une nouvelle prime sur l'optimisation logicielle, défiant les stratégies d'approvisionnement des grands fournisseurs d'infrastructures d'IA.

La recherche, basée sur des mois de micro-benchmarking systématique, montre que si le B200 peut approcher ses performances de pointe théoriques, « cela dépend fortement de la configuration de la forme de l'instruction », a déclaré SemiAnalysis. La firme, qui a utilisé des nœuds B200 fournis par les sociétés cloud Nebius et Verda, a trouvé d'importants goulots d'étranglement de bande passante dans des scénarios spécifiques, un aperçu critique pour les développeurs et les investisseurs misant sur la domination du Blackwell. Les conclusions suggèrent que l'écosystème logiciel de Nvidia reste son principal rempart, car la puissance de la puce n'est pas garantie par les seules spécifications matérielles.

Les principaux changements architecturaux par rapport à la génération précédente Hopper incluent l'introduction de la Tensor Memory (TMEM) pour gérer explicitement les résultats de calcul et une nouvelle instruction 2SM MMA qui permet à deux multiprocesseurs de flux (SM) de travailler ensemble. L'analyse a également confirmé la topologie dual-die du B200 en effectuant une rétro-ingénierie de la disposition physique de la puce, identifiant deux groupes distincts de SM avec un écart de latence clair entre eux. Cette variation de disposition physique pourrait être une source de non-déterminisme des performances entre des GPU logiquement identiques.

Les implications du rapport sont significatives pour les concurrents de Nvidia, dont AMD, et des clients comme Google et Amazon Web Services, qui développent leurs propres accélérateurs d'IA personnalisés tels que le TPU et Trainium, respectivement. Pour les centres de données d'IA, l'analyse souligne que l'achat de matériel B200 n'est que la première étape ; réaliser sa pleine valeur nécessitera un investissement important en ingénierie logicielle pour naviguer dans les nuances architecturales et les baisses de performances identifiées dans le rapport.

La configuration Dual-Die expose une pénalité de latence de 300 cycles

SemiAnalysis a rétro-conçu la topologie physique du B200 en mesurant la latence d'accès entre chaque SM sur la puce. La matrice de distance résultante a clairement montré deux clusters distincts de SM, où la latence moyenne d'accès au cache L2 entre les clusters était supérieure de plus de 300 cycles d'horloge à celle au sein d'un cluster. Cette latence est la pénalité pour l'accès aux données sur la puce adjacente.

La cartographie de la firme a révélé une distribution asymétrique des clusters de traitement de texture (TPC) sur les deux puces, l'une contenant des GPC (Graphics Processing Clusters) de 10, 10, 10 et 9 TPC, tandis que l'autre contient 9, 9, 9 et une configuration divisée 5+3. Cette différence physique signifie que même des GPU configurés de manière identique peuvent présenter des variations de performances basées sur la façon dont les charges de travail sont planifiées entre les deux puces.

Les performances des Tensor Cores dépendent de la forme de l'instruction

Le cœur de la recherche s'est concentré sur les performances de Matrix Multiply-Accumulate (MMA) des Tensor Cores, critiques pour les charges de travail d'IA. Les résultats montrent une forte dépendance à la « forme » de l'instruction, qui définit les dimensions des matrices multipliées. Pour les opérations sur un seul SM, une dimension de matrice M=64 n'a atteint que 50 % du débit de pointe théorique, tandis que M=128 a approché les 100 %, confirmant que la forme plus petite ne parvient pas à utiliser tout le chemin de données.

De plus, lorsque les deux matrices d'entrée sont stockées dans la mémoire partagée (SMEM) — un scénario courant — les tests ont révélé un goulot d'étranglement clair de la bande passante SMEM pour les formes de matrice où la dimension N est inférieure à 128. Pour une opération FP16, l'accès SMEM a nécessité 48 cycles alors que le calcul lui-même n'en a pris que 32, rendant l'instruction limitée par la mémoire et non par le calcul. La conclusion du rapport est sans ambiguïté : les développeurs doivent utiliser la forme d'instruction la plus large possible pour une tuile de mémoire donnée afin d'atteindre le débit maximal. Les nouvelles instructions 2SM MMA, qui s'étendent sur deux SM, ont permis d'atteindre une mise à l'échelle faible parfaite, offrant deux fois plus de performances avec deux fois plus de ressources.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.