SemiAnalysis 的一项深度分析显示,要释放英伟达 Blackwell B200 GPU 的全部潜力,关键不在于硬件的理论算力,而在于复杂的软件优化。
来自半导体研究机构 SemiAnalysis 的一份详细微基准报告提供了英伟达公司(Nvidia Corp.)Blackwell B200 GPU 的首份公开硬件性能数据。报告揭示了该架构巨大的潜力受到软件层调优的限制。分析发现,其双芯片布局在跨芯片数据访问时会产生大约 300 个周期的延迟惩罚,这一发现直接影响了 AI 模型必须如何构建才能高效运行。这使得软件优化的价值进一步提升,也对大型 AI 基础设施提供商的采购策略提出了挑战。
该研究基于数月的系统性微基准测试。SemiAnalysis 表示,虽然 B200 可以接近其理论峰值性能,但“这高度依赖于指令形状(instruction shape)配置”。该机构使用了由云公司 Nebius 和 Verda 提供的 B200 节点,发现在特定场景下存在显著的带宽瓶颈。这一关键洞察对于寄希望于 Blackwell 统治地位的开发者和投资者至关重要。研究结果表明,英伟达的软件生态系统依然是其核心护城河,因为单凭硬件规格并不能保证释放芯片的全部效能。
与上一代 Hopper 相比,主要的架构变化包括引入张量内存(TMEM)来显式管理计算结果,以及一种允许两个流式多处理器(SM)协同工作的全新 2SM MMA 指令。分析还通过逆向工程芯片的物理布局确认了 B200 的双芯片拓扑结构,识别出两组截然不同的 SM 群组,它们之间存在明显的延迟差距。这种物理布局的差异可能是逻辑上相同的 GPU 之间出现性能不确定性的根源。
该报告的结论对英伟达的竞争对手(包括 AMD)以及谷歌、亚马逊 AWS 等开发定制 AI 加速器(如 TPU 和 Trainium)的客户具有重要意义。对于 AI 数据中心而言,分析强调购买 B200 硬件仅仅是第一步;要实现其完整价值,需要投入大量软件工程资源,以应对报告中确定的架构细微差别和性能悬崖。
双芯片布局暴露 300 周期延迟惩罚
SemiAnalysis 通过测量芯片上每个 SM 之间的访问延迟,对 B200 的物理拓扑进行了逆向工程。由此产生的距离矩阵清晰地显示了两个截然不同的 SM 集群。集群间的平均 L2 缓存访问延迟比集群内部高出 300 多个时钟周期。这一延迟即为访问相邻芯片上数据的惩罚。
该机构的测绘还揭示了两个芯片之间纹理处理集群(TPC)的不对称分布。其中一个芯片包含 10、10、10 和 9 个 TPC 的 GPC(图形处理集群),而另一个则包含 9、9、9 以及一个 5+3 的拆分配置。这种物理差异意味着,即使配置相同的 GPU,其性能也可能因工作负载在不同芯片间的调度方式而产生波动。
张量核心性能取决于指令形状
研究的核心聚焦于对 AI 工作负载至关重要的张量核心矩阵乘法累加(MMA)性能。结果显示,性能强烈依赖于定义相乘矩阵维度的“指令形状”。对于单 SM 操作,当矩阵维度 M=64 时,仅能达到理论峰值吞吐量的 50%;而当 M=128 时,则接近 100%。这证实了较小的形状无法充分利用完整的数据路径。
此外,当两个输入矩阵都存储在共享内存(SMEM)中(这是一种常见场景)时,测试显示在 N 维度小于 128 的矩阵形状下,存在明显的 SMEM 带宽瓶颈。对于 FP16 操作,SMEM 访问需要 48 个周期,而数学计算本身仅需 32 个周期,这使得指令受限于内存而非计算。报告的结论非常明确:开发者必须在给定的内存分块中使用尽可能大的指令形状,以实现最大吞吐量。研究发现,跨越两个 SM 的新型 2SM MMA 指令实现了完美的弱扩展,能够以两倍的资源提供两倍的性能。
本文仅供参考,不构成投资建议。