Sakana Fugu 在 SWE-Bench Pro 獲得 73.7 分，挑戰單體 AI 模型

Sakana AI 推出的全新 Fugu 編排框架在 SWE-Bench Pro 上獲得 73.7 分，超越 Anthropic 的 Claude Opus 4.8（69.2 分）與 OpenAI 的 GPT-5.5（58.6 分），其方法是將子任務分配給一個由多個專業模型組成的模型池，而非依賴單一單體架構。這家總部位於東京的新創公司所採用的策略，對業界主流的不斷擴充超大規模基礎模型的路線提出了挑戰。

「Fugu 能夠動態編排全球最佳模型來處理複雜任務。我們正在證明，一個精心編排、可互換的智能體模型池，能夠達到受限前沿模型的水平，」Sakana AI 共同創辦人暨執行長 David Ha 在 X 平台上的發文中表示。曾任職於 Google Brain 的 Ha 於 2023 年與開創性論文《Attention Is All You Need》的共同作者 Llion Jones 共同創立了 Sakana。

Fugu 的角色是作為一個主協調器，而非獨立的模型。當接收到複雜請求時，它會將問題分解為子任務，將它們分配給一個由專家基礎模型組成的模型池，驗證其工作成果，然後綜合產生最終輸出——整個過程都透過一個與 OpenAI 相容的單一 API 端點完成。該系統的理論基礎來自 Sakana 於 2026 年發表的兩篇研究論文：TRINITY 和 Conductor，這些論文教導模型學習協調策略，而非依賴手工設計的工作流程。目前提供兩種版本：適用於日常任務的標準版 Fugu，以及適用於 AI 研究與網路安全分析等高風險工作負載的 Fugu Ultra。

此次發布的兩週前，Anthropic 在美國政府發布出口管制命令後，撤銷了其最強大模型 Claude Mythos 5 與 Claude Fable 5 的公開存取權限。此舉暴露了企業與各國長期以來擔憂的弱點：頂級 AI 的存取權可能因地緣政治決策而在一夕之間消失。Fugu 的架構在 AI 技術堆疊中內建了原生冗餘機制——若某一供應商受到限制，系統會繞過中斷進行路由。Fugu 模型池中的具體模型及其協調方式仍屬專有，但開發者可選擇將特定供應商排除在路由池之外以符合合規要求。

Fugu 的基準測試表現與前沿模型的對比

Fugu Ultra 在多項關鍵基準測試中達到或超越了受限的前沿模型。在 LiveCodeBench（測試在經常更新的軟體問題上的編碼表現）上，Fugu Ultra 獲得 93.2 分，標準 Fugu 獲得 92.9 分，兩者均優於 Anthropic 的 Claude Fable 5（89.8 分）。在 GPQA-Diamond（一項針對生物學、物理學和化學領域的研究生選擇題測試）上，兩種 Fugu 版本均獲得 95.5 分，略勝於 Claude Mythos Preview 的 94.6 分。

然而，Fugu 並非全盤皆勝。在 SWE-Bench Pro 上，Fugu Ultra 的 73.7 分落後於 Fable 5 的 80.0 分——後者因出口管制令目前無法納入 Fugu 的可互換模型池。在 Humanity's Last Exam 上，Fugu Ultra 獲得 50.0 分，而 Fable 5 為 53.3 分。在長語境回憶測試（MRCRv2）中，OpenAI 的 GPT-5.5 以 94.8 分領先，Fugu Ultra 為 93.6 分。這些結果表明，在單一受限領域內進行高強度推理時，最大的獨立模型仍具優勢——前提是企業能夠維持不中斷的存取權限。

定價與編排的經濟效益

Fugu Ultra 的定價為每百萬輸入 token 5 美元，每百萬輸出 token 30 美元，這使其成為市場上較昂貴的選項之一——與 OpenAI 的 GPT-5.5（分別為 5 美元和 30 美元）相當，並遠低於 Anthropic 目前已受限的 Fable 5（分別為 10 美元和 50 美元）。然而，一個重要的附帶條件是：Fugu 在委派子任務和在智能體之間路由時所消耗的背景 token 並不由供應商吸收。它們代表了實際的 token 使用量，並將按標準費率計入最終價格。

創意機構老闆 Mark Santos 進行的一次真實世界測試說明了其中的權衡。在執行使用 Three.js 構建「Crossy Road」遊戲複製版的任務時，Fugu Ultra 在 22 分鐘內完成，使用了約 89,000 個 token，花費約 7.32 美元，不過最終遊戲存在輕微的邏輯錯誤。Claude Opus 4.8 則耗時 79 分鐘，消耗約 940,000 個 token，花費近 37.85 美元，並且需要人工干預才能跳出重試循環——但最終產出了更優越的應用程式設計。

編排領域格局及其對投資者的意義

Fugu 的運作模式與 Not Diamond、Martian 或開源框架 RouteLLM 等標準路由平台有著根本性的不同。這些系統會進行一次性路由決策——分析傳入的提示詞並將其分派給單一模型。相比之下，Fugu 更接近於 Router-R1 等複雜的多輪系統：它會分解查詢，將推理與委派交織進行，並將子任務同時分配給多個模型，然後再綜合產出。

能夠在不依賴蠻力運算的情況下達到前沿性能的編排模型的出現，其影響已超出任何單一公司。高盛的 1-Delta 交易部門主管 Rich Privorotsky 已將伺服器租賃成本視為 AI 硬體投資論點的核心指標。如果編排技術減少了對大規模 GPU 集群的需求，可能會對超大規模雲端服務商和 GPU 供應商的利潤率造成壓力。半導體 ETF 上週錄得異常高的資金流入，顯示市場仍押注於持續的算力需求——這是編排模型（如 Fugu）最終可能挑戰的賭注。

於 2025 年底在 B 輪融資中達到 26 億美元估值的 Sakana，同時也面臨來自開源陣營的競爭壓力。智譜 AI 的 GLM-5.2 在 FrontierSWE 基準上獲得 74.4 分，與 Claude Opus 4.8 的 75.1 分僅差 1 分，而定價卻比 Anthropic 的模型低 72% 至 82%。該模型採用 MIT 授權，並支援權重公開、模型蒸餾與量化。

Fugu 現已在大多數地區推出，但歐盟與歐洲經濟區暫時除外，因為 Sakana 正在努力使其不透明的數據路由架構符合 GDPR 法規。標準版訂閱價格從每月 20 美元起，企業級按用量付費方案則為生產工作負載提供更高的優先級。

對投資者而言，關鍵問題在於編排技術是傳統算力支出的補充還是替代方案。如果 Fugu 的方法獲得廣泛採用，可能會壓縮對最大 GPU 集群的需求——這對 Nvidia 和 AMD 來說是一項利空。但如果市場將其視為現有基礎設施之上的附加層，則可能擴大 AI 推理的整體可尋址市場。下一個信號將來自企業採用率，以及超大規模雲端服務商是否會調整其定價以作為回應。

本文僅供資訊參考，不構成投資建議。