CoreWeave、DeepSeek-V3を2分で学習、AIクラウド記録を達成

CoreWeaveは、6710億パラメータのDeepSeek-V3モデルをわずか2分強で学習させ、この結果はAIネイティブクラウドプロバイダーのフルスタックインフラ戦略を裏付けるものとなった。

CoreWeave Inc.は、6710億パラメータのモデルであるDeepSeek-V3を、8,192基のNVIDIA GB300 GPU上で2.02分で学習させた。これはMLPerf Training v6.0ベンチマークにおける最速の結果であり、今回のラウンドで提出された最大のGB300クラスターでもある。

「最大のGB300クラスターでDeepSeek-V3を2分で学習させたことは、長年にわたるメタルからモデルに至るエンジニアリング投資を反映している」と、CoreWeaveのプロダクト＆エンジニアリング担当エグゼクティブバイスプレジデントであるChen Goldberg氏は述べた。

同社は3つのクラスターサイズでほぼ線形のスケーリングを実証した。8,192基のGPUで2.02分、4,096基のGPUで3.09分、2,048基のGPUで5.54分である。CoreWeaveはまた、Llama-3.1-405Bを4,096基のGB300 GPU上で9.77分で学習させ、同等のGB200導入と比較して20%少ないGPU数で実現した。コンパクトな64基のB200クラスターでは、GPT-OSS-20Bを26.98分、Llama-3.1-8Bを16.54分で学習させた。

これらの結果は、顧客が利用可能なものと同じインフラ上で達成され、特殊化されたAIトレーニング市場におけるハイパースケーラーに対するCoreWeaveの立場を強化する。CoreWeaveの株式は2025年3月の上場以来、ナスダックにCRWVのティッカーで上場している。

MLPerf v6.0の結果がAIトレーニング市場について明らかにすること

MLCommonsが6月16日に発表したMLPerf Training v6.0では、2つの新しいベンチマーク（DeepSeek V3とGPT-OSS 20B）が追加された。いずれもMixture-of-Expertsアーキテクチャに基づいており、トークンごとにモデルの総パラメータの一部のみを活性化する。DeepSeek V3は総パラメータ数6710億、トークンあたり370億の活性化パラメータを持ち、スイート史上最大のベンチマークである。GPT-OSS 20Bは総パラメータ数210億、活性化パラメータ数36億で、より小規模なハードウェア構成の組織向けのエントリーポイントとして設計された。

今回のラウンドには、24の提出組織が参加し、95のユニークなシステム、13の異なるハードウェアアクセラレータ、19のホストプロセッサが使用された。クラウドシステムの提出数は、6カ月前のバージョン5.1と比較して2倍以上に増加し、ホスト型AIトレーニングの市場が拡大していることを反映している。提出されたシステムの60%はマルチノードであった。

「ベンチマーク性能と本番環境の現実との間のギャップは、AIインフラにおける最も根強い課題の一つであり続けている」と、Futurum ResearchのリサーチディレクターであるBrendan Burke氏は述べた。「CoreWeaveのMLPerf Training v6.0の結果、特にベンチマーク最大のGB300クラスターでDeepSeek-V3を2分で学習させたことは、新しいハードウェアが登場するにつれて、フルスタックのAI専門知識が実際の性能向上を増幅させることを示している。」

CoreWeaveのインフラスタックがどのように結果を導いたか

CoreWeaveは、そのパフォーマンスをプラットフォームのあらゆる層にわたる最適化によるものだとしている。CoreWeave Mission Controlは、ラックスケールシステムの継続的なヘルスチェックを実行し、大規模なトレーニングジョブの前および実行中に、ハードウェア、ファームウェア、ネットワーク、およびサーマル状態を検証して、ストラグラーを削減する。同社のSUNKスケジューラはトポロジーを認識し、エキスパート並列グループを同じNVL72ドメイン内にコロケーションすることで、MoEワークロードにおけるラック間通信を最小化する。レール対応ネットワーキング戦略は、ファブリック全体のトラフィックをバランスさせ、数千GPU規模でのホットスポットを防止する。

ランには、CUDAグラフと、GB300 NVL72トポロジーに合わせたテンソル、パイプライン、およびコンテキスト並列シャーディングを備えたNVIDIA NeMo Framework Release 26.04、さらにスケールアウトファブリック用のRoCEを実行するNVIDIA Spectrum-Xイーサネットが使用された。

CoreWeaveは、DeepSeek-V3でGB300プラットフォームを2,048 GPUを超えてスケーリングした唯一の提出者である。また、SemiAnalysis ClusterMAX 1.0および2.0の両方で最高位であるプラチナランキングを獲得した唯一のAIクラウドでもある。

AIクラウドの競争環境にとっての意味

CoreWeaveのベンチマーク結果は、AIトレーニングインフラへの需要が加速する中で発表された。Sharon AI（SHAZ）は金曜日に約25%急騰した。これはNVIDIAとの6年間の戦略的コンピューティングコラボレーションを発表した後であり、オーストラリアの72メガワットの新しいデータセンター容量に最大40,000基のGB300 GPUが含まれる可能性がある。この契約により、Sharon AIの総AIファクトリーフットプリントは132メガワットに拡大する。

CoreWeaveにとって、MLPerfの結果は、企業が大規模AIワークロード向けのクラウドプロバイダーを評価している時期に、自社プラットフォームの独立した検証を提供するものとなる。最も要求の厳しいMoEモデルでほぼ線形のスケーリングを実現できる同社の能力は、同じインフラを顧客にも提供していることと相まって、同じくv6.0ラウンドで結果を提出したAmazon Web Services、Microsoft Azure、Google Cloudに対する測定可能な差別化要因となっている。

2025年3月に上場したCoreWeaveの株式は、AIインフラ構築のプロキシとなっている。MLPerfの結果は、AIトレーニング市場がスパース計算アーキテクチャへと移行する中で、同社のフルスタックアプローチが持続可能な競争優位性につながるかどうかを評価するための具体的なベンチマークを投資家に提供する。

本記事は情報提供のみを目的としており、投資助言を構成するものではない。