Meta Muse Spark 在 AI 指數中獲 52 分，性能接近 Llama 4 的三倍

在淡出前沿人工智能研究領域一年後，Meta 憑藉一款專有模型回歸，重新確立了其頂級競爭者的地位。

Meta Platforms Inc. 週三發佈了 Muse Spark，這是一款專有的人工智能模型，其性能較前代產品實現了近三倍的飛躍，並標誌著該公司從開源根基向專有技術的重大戰略轉型。作為 Meta 新成立的超級智能實驗室（Superintelligence Labs）的首個成果，該模型旨在其前代旗艦 Llama 4 未能達到預期後，使公司重新回到與 OpenAI、谷歌和 Anthropic 系統直接競爭的行列。

「這是 Meta 發佈過的最強大模型，」Meta 首席 AI 官 Alexandr Wang 在社交網絡 X 上發帖表示。Wang 指出，該模型支持「工具調用、視覺思維鏈以及多智能體編排」，將其定位為「個人超級智能」的基礎。

此次發佈標誌著 Meta 在統計數據上的回歸，此前該公司已淡出頂級 AI 性能梯隊逾一年。根據 Artificial Analysis Intelligence Index v4.0 的數據，Muse Spark 獲得了 52 分，較 Llama 4 Maverick 在 2025 年獲得的 18 分有了巨大提升。這一新分數使 Muse Spark 躋身全球模型前五名，僅次於獲得 57 分的 Gemini 3.1 Pro Preview 和 GPT-5.4，以及 53 分的 Claude Opus 4.6。

對於投資者而言，這一發佈信號表明 Meta 對其 AI 部門進行的數十億美元重組已初見成效，其中包括耗資 143 億美元收購數據標註公司 ScaleAI 49% 的股份。然而，轉向專有模型也引發了關於廣受歡迎的開源 Llama 系列未來的疑問。Llama 系列此前支持了每日超過 100 萬次的下載，並為企業提供了較專有 API 約 88% 的成本降幅。

重返前沿性能

Meta 的內部基準測試（經由 Artificial Analysis 獨立審計證實）顯示，Muse Spark 在多模態推理方面表現強勁，尤其是在視覺信息與邏輯交叉的領域。在 CharXiv 圖表理解推理基準測試中，Muse Spark 得分為 86.4，大幅領先於 GPT-5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2。該模型在 MMMU Pro 視覺基準測試中也獲得了 80.5% 的分數，使其成為市場上能力第二強的視覺模型，僅次於 Gemini 3.1 Pro Preview。

模型的效率是另一個關鍵因素。Muse Spark 僅使用了 5800 萬個輸出 Token 就完成了智能指數基準測試，不到 Claude Opus 4.6（1.57 億個 Token）和 GPT-5.4（1.2 億個 Token）的一半。Meta 將此歸功於一種稱為「思維壓縮」的過程，該過程會對訓練期間過度思考的時間進行懲罰，從而迫使模型尋找更高效的推理路徑。

從開源領導者到專有挑戰者

決定將 Muse Spark 作為專有模型發佈（僅限於 Meta 的應用程序和私人 API 預覽版），標誌著一個重大的轉變。Llama 系列（尤其是 Llama 2 和 3）曾是成千上萬開發者和企業的基礎設施，建立了一個全球生態系統。雖然 Meta 發言人表示現有的 Llama 模型仍將可用，但公司未對未來的開源開發發表評論。

這一轉變發生之際，開源權重領域的競爭日益激烈。來自阿里巴巴和智譜 AI 的中國模型在 2025 年底開始在某些基準測試中超越 Llama 4，侵蝕了 Meta 曾一度主導的領域領先地位。儘管 Wang 暗示有計劃「開源未來版本」，但最初的專有發佈表明，在重新進入前沿 AI 競賽時，Meta 優先考慮性能和控制權。該公司股票的遠期市盈率為 24 倍，尚未完全消化競爭性專有模型帶來的潛在收入，分析師們正密切關注 Muse Spark 能否將基準測試的勝利轉化為切實的業務優勢。

本文僅供參考，不構成投資建議。