中国のAI企業DeepSeekは、DeepGEMMコードベースのメジャーアップデートをリリースし、Mixture of Experts(MoE)モデルに伴う膨大な計算コストを大幅に削減するために設計された「Mega MoE」という名称の新アーキテクチャを導入しました。このアップデートは、複数の複雑なステップを単一のGPUオペレーションに統合することでAIの重要な効率化の問題を解決することを目指しており、DeepSeekが大規模モデルの学習と展開において顕著なコスト優位性を得る可能性があります。
「DeepGEMMは、最新の大規模言語モデル向けの主要な計算プリミティブを統合した、統一された高性能なTensor Coreカーネルライブラリである」と、DeepSeekのインフラチームはプロジェクトの説明文に記しています。このライブラリには現在、コアコンポーネントとして「通信オーバーラップを伴う融合MoE(Mega MoE)」が含まれており、究極の効率化に対する戦略的な焦点を象徴しています。
従来のMoEモデルは強力ではあるものの、非効率的であることで知られています。これらは、異なるデータの「トークン」を専門の「エキスパート」サブネットワークにルーティングすることで情報を処理しますが、これにはGPU上での断片化された一連の個別操作(トークンのディスパッチ、2つの線形変換、活性化関数、結果の結合)が伴います。Mega MoEは、このバラバラなワークフロー全体を、プロセス全体を一度に実行する単一の統合された「メガカーネル」に置き換えます。極めて重要なのは、GPU間のデータ通信を計算と同時に行えるようにし、現在のマルチGPU環境を悩ませているアイドル時間を排除したことです。
この効率化への取り組みは、AI学習に必要とされる巨額の資本支出が支配する業界において極めて重要です。GoogleやMistral AIといったトップクラスの研究所も使用しているMoEモデルの運用コストを潜在的に下げることで、DeepSeekは競争上の優位性を得ることができます。また、今回のアップデートは同社のハードウェア戦略を示唆しており、アナリストはこれらの高度な技術がNvidiaの最新のBシリーズAIアクセラレータ向けに最適化されていると指摘しています。これは、同社が国内製ハードウェアのみに依存しているという噂を打ち消すものです。
非効率を克服するためのカーネルの融合
Mega MoEの核心的な革新は、MoEレイヤーの従来の段階的な実行からの脱却にあります。従来の手法では、プロセスの各段階で複数のカーネル(GPU上で実行される小さなプログラム)を起動する必要がありましたが、Mega MoEはそれらを統合します。これは、時間のかかる多工程の組立ラインを、単一の継続的に稼働するコンベアベルトに変えるようなものだと考えてください。
この「融合」アプローチは、GPUの稼働率不足という問題に直接対処します。複数のGPUを使用した標準的なMoE学習では、プロセッサが相互にデータをシャッフルするのを待つ間に、かなりの時間が無駄になります。Tensor Coreでのアクティブな計算とデータ通信が重なるようにカーネルを設計することで、DeepSeekは高価なハードウェアがより高い割合の時間で有用な作業を行えるようにしました。その結果、特にフロンティアモデルの学習に必要な大規模なマルチノード構成において、スループットが直接向上します。
FP4と将来のハードウェアで限界を押し広げる
融合カーネルにとどまらず、DeepSeekのアップデートは計算コスト削減の限界に挑む積極的な姿勢を露わにしています。チームは、MQAロジット用のFP4インデクサーを含む、より低精度なデータフォーマットの実験を行っています。一般的な8ビットや16ビットのフォーマットよりも低い4ビット浮動小数点数を使用することで、メモリ使用量を劇的に削減し計算速度を向上させることができますが、モデルの精度を維持するには高度なエンジニアリングが必要です。
こうした最先端の最適化技術への注力は、DeepSeekの基盤となるハードウェアに関する憶測を呼んでいます。XユーザーのSt4rによる分析によると、Mega MoEで実装されている特定の手法は、Nvidiaの最も先進的なAIアクセラレータであるBlackwellアーキテクチャに最適です。これは、地政学的な貿易摩擦にもかかわらず、DeepSeekが市場リーダーのトップチップを使い続けていることを示唆しており、OpenAIやAnthropicといった他の主要プレーヤー、およびAMDやIntelといったハードウェアサプライヤーとの競争環境を追跡している投資家にとって重要な要素です。DeepSeekはプロジェクトがまだ開発中であり、パフォーマンスデータは今後公開されるとしていますが、この動きは「最先端のAIを経済的により実現可能にする」という明確な戦略的方向性を示しています。
投資家にとって、DeepSeekのインフラ最適化への注力は重要な差別化要因です。学習と推論の莫大なコストが主な参入障壁となっている市場において、そのコスト曲線を根本的に引き下げることができる企業は、強力な競争優位性を獲得します。今回のアップデートは、他のAI研究所やクラウドプロバイダーに対し、同レベルの効率化を求める圧力をかけることになります。Mega MoEの成功は、DeepSeek自身のモデルのユニットエコノミクスを改善するだけでなく、業界全体の次世代AIソフトウェアおよびハードウェアの設計に影響を与える可能性があります。
この記事は情報提供のみを目的としており、投資アドバイスを構成するものではありません。