重要ポイント:
- Pulsar 16Bは総パラメータ数161.5億で30Bクラスの推論性能を実現
- AIME 2025で87.22を獲得、非圧縮ベースモデルと同等
- Nvidia Blackwell GPU上でベースモデル比43%高速に動作
重要ポイント:

Multiverse Computingのオープンソースモデル「Pulsar 16B」は、同等クラスのモデルと比較して約半分のパラメータ数でフロンティア級の推論性能を実現。Nvidiaのアクセラレーテッドインフラ上で検証済み。
Multiverse ComputingのPulsar 16Bは、総パラメータ数161.5億、アクティブパラメータ数31億で、300億パラメータモデルと同等の推論性能を達成。計算フットプリントを約半分に削減しながら、数学、科学、コーディングタスクにおけるベンチマークスコアを維持している。
「高度なAIをローカルで実行するには、これまでモデルサイズかパフォーマンスのどちらかを妥協する必要がありました」とMultiverse Computingの共同創業者兼CEOであるEnrique Lizaso氏は述べた。「Pulsar 16Bで実証しているのは、フロンティア級の推論が、もはやクラウド規模のインフラを必要とせず、企業が経済的に実行・拡張可能なフットプリントで展開できるということです。」
NvidiaのNemotron 3 Nano(Mamba2-TransformerとMixture-of-Expertsを組み合わせたハイブリッドアーキテクチャ)の圧縮版をベースに構築されたPulsar 16Bは、数学推論ベンチマークAIME 2025で87.22をスコアリング。非圧縮の316億パラメータベースモデルと0.1ポイント差、gpt-oss-20Bを15ポイント上回る。博士課程レベルの科学ベンチマークGPQA-Diamondでは71.41を記録し、非圧縮モデルと同等、gpt-oss-20Bの58.88を上回った。また、インストラクション追従で14ポイント、関数呼び出しで11ポイント、gpt-oss-20Bを上回っている。
この効率性の向上は、直接的にデプロイコストの削減につながる。Nvidia Blackwell GPU上で32の同時リクエストを処理する場合、FP8精度のPulsar 16Bはシステムスループット毎秒4,808トークンを実現。これはベースモデルの毎秒3,363トークンから43%の増加であり、タイム・トゥ・ファースト・トークンは2.18秒から1.24秒に短縮された。高並列なエージェンティックワークフローや長文書を継続的に処理する企業にとって、GPU調達とエネルギーコストの削減効果は大きい。
メモリと推論の優位性
Pulsar 16Bは、BF16、FP8、NVFP4の全対応精度において、Nemotron-3-Nano-30B-A3Bベースモデルと比較してモデル重みメモリを大幅に削減している。この圧縮は、Multiverse ComputingのCompactifAI技術とNvidiaのModel OptimizerおよびMegatron Bridgeライブラリを組み合わせて実現され、スクラッチからの再トレーニングは不要。同社は、トレーニング済みネットワーク内の数学的な冗長性を特定して除去しつつ、トレーニング中に学習された推論動作を維持した。
長文脈性能は、積極的な圧縮で最初に犠牲になりがちだが、今回は維持されている。針山干し草探索検索は10万トークンの両側で実質的に完全な状態を保ち、Pulsar 16BはLongBench、AA-LCR、RULERスイート、NIAHバリアントにわたるMultiverse Computingの評価によれば、拡張コンテキスト長でのより困難なRULERタスクにおいても非圧縮ベースモデルに密接に追従している。
競合への影響
今回のリリースは、gpt-oss-20Bや類似の中規模アーキテクチャを開発する他のオープンソースモデル開発者に対し、同等の効率性の向上を実証するよう圧力をかけるものだ。Nvidiaにとって、この協業は推論最適化されたBlackwellハードウェアの価値を強化する。同一GPU上で43%高速に動作するモデルは、Nvidiaのインフラを評価するエンタープライズ顧客に対して、より強力な投資収益率の根拠を創出する。NvidiaのInceptionプログラムのメンバーであるMultiverse Computingは、Iberdrola、Bosch、カナダ銀行を含む100以上のグローバル顧客にサービスを提供しており、データがオンプレミスインフラから決して出ることのない Sovereign AI デプロイメントを求める規制産業からの需要を取り込む立場にある。
Pulsar 16Bは、Apache 2.0ライセンスのもとHugging Faceで公開されている。本モデルは、シングルノード環境、オンプレミス環境、およびフロンティアクラスの推論コストがこれまで法外であったレイテンシ重視のシステム向けに設計されている。
本記事は情報提供のみを目的としており、投資助言を構成するものではありません。