Nvidia B200の機密が判明、最新の300サイクルレイテンシ分析で明らかに

SemiAnalysisによる深層分析の結果、NvidiaのBlackwell B200 GPUの真の可能性を引き出すには、ハードウェアの理論上の性能よりも、洗練されたソフトウェア最適化が重要であることが明らかになりました。

半導体調査会社SemiAnalysisによる詳細なマイクロベンチマークレポートは、Nvidia Corp.のBlackwell B200 GPUに関する初の公開ハードウェア性能データを提供し、その巨大な可能性がソフトウェアレベルのチューニングによって制限されているアーキテクチャであることを明らかにしました。分析の結果、ダイ間データアクセスに約300サイクルのレイテンシペナルティを課すデュアルダイチップ構成が判明しました。この発見は、効率的に動作させるためにAIモデルをどのように構築すべきかに直接影響します。これにより、ソフトウェア最適化に新たな価値が生まれ、大規模AIインフラプロバイダーの調達戦略に課題を突きつけています。

数ヶ月に及ぶ体系的なマイクロベンチマークに基づくこの研究は、B200が理論上のピーク性能に近づくことは可能であるものの、「それは命令形状（instruction shape）の構成に大きく依存する」とSemiAnalysisは述べています。クラウド企業のNebiusとVerdaが提供したB200ノードを使用した同社は、特定のシナリオにおいて顕著な帯域幅のボトルネックを発見しました。これは、Blackwellの支配力に期待する開発者や投資家にとって極めて重要な洞察です。この結果は、チップのパワーを引き出すことがハードウェアのスペックだけでは保証されないため、Nvidiaのソフトウェアエコシステムが依然として主要な堀（Moat）であることを示唆しています。

前世代のHopperからの主なアーキテクチャ変更点には、計算結果を明示的に管理するためのテンソルメモリ（TMEM）の導入や、2つのストリーミングマルチプロセッサ（SM）を連携させる新しい2SM MMA命令が含まれます。また、分析ではチップの物理レイアウトをリバースエンジニアリングすることでB200のデュアルダイトポロジを確認し、間に明確なレイテンシの差がある2つの異なるSMグループを特定しました。この物理レイアウトの差異は、論理的に同一のGPU間での性能の非決定性の原因となる可能性があります。

このレポートの示唆は、AMDを含むNvidiaの競合他社や、Google、Amazon Web Servicesといった独自のカスタムAIアクセラレータ（TPUやTrainiumなど）を開発する顧客にとっても重要です。AIデータセンターにとって、この分析はB200ハードウェアを購入することは最初の一歩に過ぎず、その価値を完全に実現するには、レポートで特定されたアーキテクチャの微妙な違いやパフォーマンスの急落を管理するためのソフトウェアエンジニアリングへの多額の投資が必要であることを強調しています。

デュアルダイレイアウトが300サイクルのレイテンシペナルティを露呈

SemiAnalysisは、チップ上のすべてのSM間のアクセスレイテンシを測定することにより、B200の物理トポロジをリバースエンジニアリングしました。得られた距離行列は、2つの明確なSMクラスターを示しており、クラスター間の平均L2キャッシュアクセスレイテンシは、クラスター内のレイテンシよりも300クロックサイクル以上高いことがわかりました。このレイテンシは、隣接するダイ上のデータにアクセスするためのペナルティです。

同社のマッピングにより、2つのダイ間でテクスチャプロセッシングクラスター（TPC）が非対称に配置されていることが明らかになりました。一方のダイには10、10、10、9個のTPCで構成されるGPC（グラフィックスプロセッシングクラスター）が含まれ、もう一方には9、9、9個と、分割された5+3構成が含まれています。この物理的な違いは、論理的に同じ構成のGPUであっても、ワークロードが異なるダイにどのようにスケジュールされるかによってパフォーマンスに変動が生じる可能性があることを意味します。

テンソルコアの性能は命令形状に左右される

研究の核心は、AIワークロードに不可欠なテンソルコアの行列積和演算（MMA）性能に焦点を当てました。結果は、乗算される行列の次元を定義する「命令形状」への強い依存性を示しています。シングルSMオペレーションの場合、行列次元M=64では理論上のピークスループットの50％しか達成できませんでしたが、M=128では100％に近づき、小さな形状ではデータパスをフル活用できないことが確認されました。

さらに、両方の入力行列が共有メモリ（SMEM）に保存されている場合（一般的なシナリオ）、テストにより、N次元が128未満の行列形状において明確なSMEM帯域幅のボトルネックが明らかになりました。FP16演算の場合、数学演算自体は32サイクルで済むのに対し、SMEMアクセスには48サイクルを要し、命令が計算バウンドではなくメモリバウンドになりました。レポートの結論は明白です。最大のスループットを達成するには、開発者は特定のメモリタイルに対して利用可能な最大の命令形状を使用する必要があります。2つのSMにまたがる新しい2SM MMA命令は、完璧なウィークスケーリングを達成し、2倍のリソースで2倍のパフォーマンスを提供することが判明しました。

本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。