关键要点:
- Pulsar 16B 以 161.5 亿总参数实现 300 亿参数级推理能力
- AIME 2025 得分 87.22,与未压缩的基础模型持平
- 在英伟达 Blackwell GPU 上运行速度比基础模型快 43%
关键要点:

Multiverse Computing 的开源模型 Pulsar 16B 以可比模型约一半的参数数量实现了前沿级别的推理性能,并在英伟达加速基础设施上通过验证。
Multiverse Computing 的 Pulsar 16B 仅以 161.5 亿总参数(其中 31 亿为活跃参数)就达到了 300 亿参数模型的推理性能,将计算开销削减了近一半,同时在数学、科学和编程任务上保持了基准测试分数。
"在本地运行先进 AI 历来需要在模型规模或性能上做出妥协,"Multiverse Computing 联合创始人兼首席执行官 Enrique Lizaso 表示。"我们通过 Pulsar 16B 证明的是,前沿级别的推理现在可以在没有云端规模基础设施开销的情况下部署,其占用空间使企业能够实际运行并以经济方式扩展。"
Pulsar 16B 基于英伟达 Nemotron 3 Nano 的压缩版本构建——这是一种采用混合 Mamba2-Transformer 与专家混合架构的模型——在 AIME 2025 数学推理基准测试中得分 87.22,与未压缩的 316 亿参数基础模型相差仅 0.1 分,并领先 gpt-oss-20B 达 15 分。在博士级科学基准 GPQA-Diamond 上,Pulsar 16B 得分为 71.41,与未压缩模型持平,并超过 gpt-oss-20B 的 58.88 分。该模型在指令遵循方面领先 gpt-oss-20B 14 分,在函数调用方面领先 11 分。
效率提升直接转化为更低的部署成本。在一台处理 32 个并发请求的英伟达 Blackwell GPU 上,采用 FP8 精度的 Pulsar 16B 系统吞吐量达到每秒 4808 个 token,较基础模型的每秒 3363 个 token 提升了 43%,同时首 token 生成时间从 2.18 秒缩短至 1.24 秒。对于运行高并发智能体工作流或持续处理长文档的企业而言,GPU 采购和能源成本的节约可能相当可观。
内存与推理优势
与 Nemotron-3-Nano-30B-A3B 基础模型相比,Pulsar 16B 在所有支持的精度(BF16、FP8 和 NVFP4)下均实现了模型权重内存的显著降低。这一压缩使用了 Multiverse Computing 的 CompactifAI 技术,结合英伟达的 Model Optimizer 和 Megatron Bridge 库,无需从头重新训练。相反,该公司识别并移除了训练后网络中的数学冗余,同时保留了训练期间习得的推理行为。
长上下文性能——这往往是激进压缩的首要牺牲品——得以完整保留。根据 Multiverse Computing 在 LongBench、AA-LCR、RULER 套件及 NIAH 变体上的评估,在 10 万 token 两侧的"大海捞针"检索任务上基本保持完美表现,Pulsar 16B 在更长上下文下的较难 RULER 任务中也与未压缩的基础模型表现接近。
竞争影响
该模型的发布给其他开源模型开发者——包括 gpt-oss-20B 及类似中等规模架构的开发者——带来了压力,要求他们展示出可比的效率提升。对英伟达而言,此次合作强化了其推理优化的 Blackwell 硬件的价值:在同一 GPU 上运行速度快 43% 的模型,为评估英伟达基础设施的企业客户创造了更强的投资回报率案例。作为英伟达 Inception 计划的成员,Multiverse Computing 为超过 100 家全球客户提供服务,包括 Iberdrola、博世和加拿大央行,这使得它能够抓住受监管行业对数据永不离开本地基础设施的主权 AI 部署需求。
Pulsar 16B 已根据 Apache 2.0 许可证在 Hugging Face 上发布。该模型专为单节点设置、本地环境以及对延迟敏感的系统而设计,此前在这些场景中,前沿级推理的成本一直令人望而却步。
本文仅供参考,不构成投资建议。