CoreWeave 2分钟训练DeepSeek-V3，创下AI云纪录

CoreWeave在短短两分钟内训练了拥有6710亿参数的DeepSeek-V3模型，这一结果验证了这家AI原生云服务商的全栈基础设施战略。

CoreWeave公司在8192块NVIDIA GB300 GPU上用时2.02分钟完成了对6710亿参数模型DeepSeek-V3的训练——这是MLPerf Training v6.0基准测试中最快的成绩，也是该轮提交的最大GB300集群。

"在最大的GB300集群上两分钟训练DeepSeek-V3，反映了多年从硬件到模型的工程投入，"CoreWeave产品与工程执行副总裁Chen Goldberg表示。

该公司在三种集群规模上展示了近线性扩展能力：8192块GPU上用时2.02分钟，4096块GPU上用时3.09分钟，2048块GPU上用时5.54分钟。CoreWeave还在4096块GB300 GPU上用时9.77分钟训练了Llama-3.1-405B，使用的GPU数量比同类GB200部署少20%。在一个紧凑的64块GPU B200集群上，它用时26.98分钟训练了GPT-OSS-20B，用时16.54分钟训练了Llama-3.1-8B。

这些结果是在客户可用的同一基础设施上实现的，巩固了CoreWeave在专业AI训练市场上与超大规模云服务商竞争的地位。CoreWeave于2025年3月上市，股票在纳斯达克以代码CRWV交易。

MLPerf v6.0结果揭示了AI训练市场的哪些信息

MLPerf Training v6.0于6月16日由MLCommons发布，新增了两个基准测试——DeepSeek V3和GPT-OSS 20B——均基于混合专家架构，该架构每次仅激活模型总参数中的一小部分。DeepSeek V3拥有6710亿总参数，每次激活370亿参数，是该套件历史上规模最大的基准测试。GPT-OSS 20B拥有210亿总参数，每次激活36亿参数，旨在作为硬件配置较小的组织的入门基准。

本轮共有24家提交机构参与，涉及95个独特系统，使用了13种不同的硬件加速器和19种宿主机处理器。与六个月前的v5.1版本相比，云系统提交数量增加了一倍以上，反映出托管AI训练市场的增长。60%的提交系统为多节点配置。

"基准测试性能与生产环境现实之间的差距，仍然是AI基础设施领域最持久的挑战之一，"Futurum Research研究总监Brendan Burke表示。"CoreWeave在MLPerf Training v6.0上的表现，尤其是在基准测试中最大的GB300集群上两分钟训练DeepSeek-V3，证明了全栈AI专业能力在新硬件到来时能带来复合的实际性能提升。"

CoreWeave的基础设施堆栈如何驱动了这一结果

CoreWeave将其性能归功于平台每一层的优化。CoreWeave Mission Control对机架级系统进行持续健康检查，在大规模训练任务之前和期间验证硬件、固件、网络和热状态，以减少拖后腿的节点。该公司的SUNK调度器具有拓扑感知能力，将专家并行组放置在同一NVL72域内，以最大限度地减少MoE工作负载的跨机架通信。轨道感知网络策略则均衡跨网络的流量，以防止数千GPU规模下出现热点。

这些运行使用了NVIDIA NeMo Framework Release 26.04，结合CUDA图以及针对GB300 NVL72拓扑优化的张量、流水线和上下文并行分片技术，并采用运行RoCE的NVIDIA Spectrum-X以太网作为扩展网络。

CoreWeave是唯一一家在DeepSeek-V3上将GB300平台扩展到2048块GPU以上的提交方。该公司也是唯一一家在SemiAnalysis ClusterMAX 1.0和2.0两项评估中均获得最高白金评级的AI云服务商。

这对AI云竞争格局意味着什么

CoreWeave的基准测试结果出炉之际，AI训练基础设施需求正在加速增长。Sharon AI（SHAZ）上周五股价飙升约25%，此前该公司宣布与NVIDIA达成一项为期六年的战略计算合作，可能涉及在澳大利亚部署多达40000块GB300 GPU，新建72兆瓦的数据中心容量。该交易将Sharon AI的AI工厂总规模扩大至132兆瓦。

对于CoreWeave而言，MLPerf结果在企业评估云服务商以承载大规模AI工作负载之际，为其平台提供了独立验证。该公司在最严苛的MoE模型上实现近线性扩展的能力——同时使用其向客户提供的同一基础设施——在与亚马逊云服务、微软Azure和谷歌云（这三家也在v6.0轮次中提交了结果）的竞争中创造了可量化的差异化优势。

CoreWeave的股票于2025年3月上市，一直被视为AI基础设施建设的风向标。MLPerf结果为投资者提供了一个具体的衡量标准，用以评估该公司的全栈方法能否在AI训练市场向稀疏计算架构转型的过程中转化为可持续的竞争优势。

本文仅供参考，不构成投资建议。