Meta Muse Spark 在 AI 指数中获 52 分，性能接近 Llama 4 的三倍

在淡出前沿人工智能研究领域一年后，Meta 凭借一款专有模型回归，重新确立了其顶级竞争者的地位。

Meta Platforms Inc. 周三发布了 Muse Spark，这是一款专有的人工智能模型，其性能较前代产品实现了近三倍的飞跃，并标志着该公司从开源根基向专有技术的重大战略转型。作为 Meta 新成立的超级智能实验室（Superintelligence Labs）的首个成果，该模型旨在其前代旗舰 Llama 4 未能达到预期后，使公司重新回到与 OpenAI、谷歌和 Anthropic 系统直接竞争的行列。

“这是 Meta 发布过的最强大模型，”Meta 首席 AI 官 Alexandr Wang 在社交网络 X 上发帖表示。Wang 指出，该模型支持“工具调用、视觉思维链以及多智能体编排”，将其定位为“个人超级智能”的基础。

此次发布标志着 Meta 在统计数据上的回归，此前该公司已淡出顶级 AI 性能梯队逾一年。根据 Artificial Analysis Intelligence Index v4.0 的数据，Muse Spark 获得了 52 分，较 Llama 4 Maverick 在 2025 年获得的 18 分有了巨大提升。这一新分数使 Muse Spark 跻身全球模型前五名，仅次于获得 57 分的 Gemini 3.1 Pro Preview 和 GPT-5.4，以及 53 分的 Claude Opus 4.6。

对于投资者而言，这一发布信号表明 Meta 对其 AI 部门进行的数十亿美元重组已初见成效，其中包括耗资 143 亿美元收购数据标注公司 ScaleAI 49% 的股份。然而，转向专有模型也引发了关于广受欢迎的开源 Llama 系列未来的疑问。Llama 系列此前支持了每日超过 100 万次的下载，并为企业提供了较专有 API 约 88% 的成本降幅。

重返前沿性能

Meta 的内部基准测试（经由 Artificial Analysis 独立审计证实）显示，Muse Spark 在多模态推理方面表现强劲，尤其是在视觉信息与逻辑交叉的领域。在 CharXiv 图表理解推理基准测试中，Muse Spark 得分为 86.4，大幅领先于 GPT-5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2。该模型在 MMMU Pro 视觉基准测试中也获得了 80.5% 的分数，使其成为市场上能力第二强的视觉模型，仅次于 Gemini 3.1 Pro Preview。

模型的效率是另一个关键因素。Muse Spark 仅使用了 5800 万个输出 Token 就完成了智能指数基准测试，不到 Claude Opus 4.6（1.57 亿个 Token）和 GPT-5.4（1.2 亿个 Token）的一半。Meta 将此归功于一种称为“思维压缩”的过程，该过程会对训练期间过度思考的时间进行惩罚，从而迫使模型寻找更高效的推理路径。

从开源领导者到专有挑战者

决定将 Muse Spark 作为专有模型发布（仅限于 Meta 的应用程序和私人 API 预览版），标志着一个重大的转变。Llama 系列（尤其是 Llama 2 和 3）曾是成千上万开发者和企业的基础设施，建立了一个全球生态系统。虽然 Meta 发言人表示现有的 Llama 模型仍将可用，但公司未对未来的开源开发发表评论。

这一转变发生之际，开源权重领域的竞争日益激烈。来自阿里巴巴和智谱 AI 的中国模型在 2025 年底开始在某些基准测试中超越 Llama 4，侵蚀了 Meta 曾一度主导的领域领先地位。尽管 Wang 暗示有计划“开源未来版本”，但最初的专有发布表明，在重新进入前沿 AI 竞赛时，Meta 优先考虑性能和控制权。该公司股票的远期市盈率为 24 倍，尚未完全消化竞争性专有模型带来的潜在收入，分析师们正密切关注 Muse Spark 能否将基准测试的胜利转化为切实的业务优势。

本文仅供参考，不构成投资建议。