輝達 B200 核心機密揭曉：最新分析顯示存在 300 週期延遲

SemiAnalysis 的一項深度分析顯示，要釋放輝達 Blackwell B200 GPU 的全部潛力，關鍵不在於硬體的理論算力，而在於複雜的軟體優化。

來自半導體研究機構 SemiAnalysis 的一份詳細微基準報告提供了輝達公司（Nvidia Corp.）Blackwell B200 GPU 的首份公開硬體性能數據。報告揭示了該架構巨大的潛力受到軟體層調優的限制。分析發現，其雙芯片佈局在跨芯片數據訪問時會產生大約 300 個週期的延遲懲罰，這一發現直接影響了 AI 模型必須如何構建才能高效運行。這使得軟體優化的價值進一步提升，也對大型 AI 基礎設施提供商的採購策略提出了挑戰。

該研究基於數月的系統性微基準測試。SemiAnalysis 表示，雖然 B200 可以接近其理論峰值性能，但「這高度依賴於指令形狀（instruction shape）配置」。該機構使用了由雲公司 Nebius 和 Verda 提供的 B200 節點，發現在特定場景下存在顯著的頻寬瓶頸。這一關鍵洞察對於寄希望於 Blackwell 統治地位的開發者和投資者至關重要。研究結果表明，輝達的軟體生態系統依然是其核心護城河，因為單憑硬體規格並不能保證釋放芯片的全部效能。

與上一代 Hopper 相比，主要的架構變化包括引入張量記憶體（TMEM）來顯式管理計算結果，以及一種允許兩個流式多處理器（SM）協同工作的全新 2SM MMA 指令。分析還通過逆向工程芯片的物理佈局確認了 B200 的雙芯片拓撲結構，識別出兩組截然不同的 SM 群組，它們之間存在明顯的延遲差距。這種物理佈局的差異可能是邏輯上相同的 GPU 之間出現性能不確定性的根源。

該報告的結論對輝達的競爭對手（包括 AMD）以及 Google、亞馬遜 AWS 等開發定制 AI 加速器（如 TPU 和 Trainium）的客戶具有重要意義。對於 AI 數據中心而言，分析強調購買 B200 硬體僅僅是第一步；要實現其完整價值，需要投入大量軟體工程資源，以應對報告中確定的架構細微差別和性能懸崖。

雙芯片佈局暴露 300 週期延遲懲罰

SemiAnalysis 通過測量芯片上每個 SM 之間的訪問延遲，對 B200 的物理拓撲進行了逆向工程。由此產生的距離矩陣清晰地顯示了兩個截然不同的 SM 集群。集群間的平均 L2 快取訪問延遲比集群內部高出 300 多個時鐘週期。這一延遲即為訪問相鄰芯片上數據的懲罰。

該機構的測繪還揭示了兩個芯片之間紋理處理集群（TPC）的不對稱分佈。其中一個芯片包含 10、10、10 和 9 個 TPC 的 GPC（圖形處理集群），而另一個則包含 9、9、9 以及一個 5+3 的拆分配置。這種物理差異意味著，即使配置相同的 GPU，其性能也可能因工作負載在不同芯片間的調度方式而產生波動。

張量核心性能取決於指令形狀

研究的核心聚焦於對 AI 工作負載至關重要的張量核心矩陣乘法累加（MMA）性能。結果顯示，性能強烈依賴於定義相乘矩陣維度的「指令形狀」。對於單 SM 操作，當矩陣維度 M=64 時，僅能達到理論峰值吞吐量的 50%；而當 M=128 時，則接近 100%。這證實了較小的形狀無法充分利用完整數據路徑。

此外，當兩個輸入矩陣都存儲在共享記憶體（SMEM）中（這是一種常見場景）時，測試顯示在 N 維度小於 128 的矩陣形狀下，存在明顯的 SMEM 頻寬瓶頸。對於 FP16 操作，SMEM 訪問需要 48 個週期，而數學計算本身僅需 32 個週期，這使得指令受限於記憶體而非計算。報告的結論非常明確：開發者必須在給定的記憶體分塊中使用盡可能大的指令形狀，以實現最大吞吐量。研究發現，跨越兩個 SM 的新型 2SM MMA 指令實現了完美的弱擴展，能夠以兩倍的資源提供兩倍的性能。

本文僅供參考，不構成投資建議。