Key Takeaways
- Sakana Fugu 在 SWE-Bench Pro 上獲得 73.7 分,超越 Claude Opus 4.8 及 GPT-5.5
- Fugu Ultra 在 LiveCodeBench 與 GPQA-Diamond 上匹配或超越受限模型
- 編排架構挑戰了支撐 AI 硬體支出的算力稀缺論點
Key Takeaways

Sakana AI 推出的全新 Fugu 編排框架在 SWE-Bench Pro 上獲得 73.7 分,超越 Anthropic 的 Claude Opus 4.8(69.2 分)與 OpenAI 的 GPT-5.5(58.6 分),其方法是將子任務分配給一個由多個專業模型組成的模型池,而非依賴單一單體架構。這家總部位於東京的新創公司所採用的策略,對業界主流的不斷擴充超大規模基礎模型的路線提出了挑戰。
「Fugu 能夠動態編排全球最佳模型來處理複雜任務。我們正在證明,一個精心編排、可互換的智能體模型池,能夠達到受限前沿模型的水平,」Sakana AI 共同創辦人暨執行長 David Ha 在 X 平台上的發文中表示。曾任職於 Google Brain 的 Ha 於 2023 年與開創性論文《Attention Is All You Need》的共同作者 Llion Jones 共同創立了 Sakana。
Fugu 的角色是作為一個主協調器,而非獨立的模型。當接收到複雜請求時,它會將問題分解為子任務,將它們分配給一個由專家基礎模型組成的模型池,驗證其工作成果,然後綜合產生最終輸出——整個過程都透過一個與 OpenAI 相容的單一 API 端點完成。該系統的理論基礎來自 Sakana 於 2026 年發表的兩篇研究論文:TRINITY 和 Conductor,這些論文教導模型學習協調策略,而非依賴手工設計的工作流程。目前提供兩種版本:適用於日常任務的標準版 Fugu,以及適用於 AI 研究與網路安全分析等高風險工作負載的 Fugu Ultra。
此次發布的兩週前,Anthropic 在美國政府發布出口管制命令後,撤銷了其最強大模型 Claude Mythos 5 與 Claude Fable 5 的公開存取權限。此舉暴露了企業與各國長期以來擔憂的弱點:頂級 AI 的存取權可能因地緣政治決策而在一夕之間消失。Fugu 的架構在 AI 技術堆疊中內建了原生冗餘機制——若某一供應商受到限制,系統會繞過中斷進行路由。Fugu 模型池中的具體模型及其協調方式仍屬專有,但開發者可選擇將特定供應商排除在路由池之外以符合合規要求。
Fugu 的基準測試表現與前沿模型的對比
Fugu Ultra 在多項關鍵基準測試中達到或超越了受限的前沿模型。在 LiveCodeBench(測試在經常更新的軟體問題上的編碼表現)上,Fugu Ultra 獲得 93.2 分,標準 Fugu 獲得 92.9 分,兩者均優於 Anthropic 的 Claude Fable 5(89.8 分)。在 GPQA-Diamond(一項針對生物學、物理學和化學領域的研究生選擇題測試)上,兩種 Fugu 版本均獲得 95.5 分,略勝於 Claude Mythos Preview 的 94.6 分。
然而,Fugu 並非全盤皆勝。在 SWE-Bench Pro 上,Fugu Ultra 的 73.7 分落後於 Fable 5 的 80.0 分——後者因出口管制令目前無法納入 Fugu 的可互換模型池。在 Humanity's Last Exam 上,Fugu Ultra 獲得 50.0 分,而 Fable 5 為 53.3 分。在長語境回憶測試(MRCRv2)中,OpenAI 的 GPT-5.5 以 94.8 分領先,Fugu Ultra 為 93.6 分。這些結果表明,在單一受限領域內進行高強度推理時,最大的獨立模型仍具優勢——前提是企業能夠維持不中斷的存取權限。
定價與編排的經濟效益
Fugu Ultra 的定價為每百萬輸入 token 5 美元,每百萬輸出 token 30 美元,這使其成為市場上較昂貴的選項之一——與 OpenAI 的 GPT-5.5(分別為 5 美元和 30 美元)相當,並遠低於 Anthropic 目前已受限的 Fable 5(分別為 10 美元和 50 美元)。然而,一個重要的附帶條件是:Fugu 在委派子任務和在智能體之間路由時所消耗的背景 token 並不由供應商吸收。它們代表了實際的 token 使用量,並將按標準費率計入最終價格。
創意機構老闆 Mark Santos 進行的一次真實世界測試說明了其中的權衡。在執行使用 Three.js 構建「Crossy Road」遊戲複製版的任務時,Fugu Ultra 在 22 分鐘內完成,使用了約 89,000 個 token,花費約 7.32 美元,不過最終遊戲存在輕微的邏輯錯誤。Claude Opus 4.8 則耗時 79 分鐘,消耗約 940,000 個 token,花費近 37.85 美元,並且需要人工干預才能跳出重試循環——但最終產出了更優越的應用程式設計。
編排領域格局及其對投資者的意義
Fugu 的運作模式與 Not Diamond、Martian 或開源框架 RouteLLM 等標準路由平台有著根本性的不同。這些系統會進行一次性路由決策——分析傳入的提示詞並將其分派給單一模型。相比之下,Fugu 更接近於 Router-R1 等複雜的多輪系統:它會分解查詢,將推理與委派交織進行,並將子任務同時分配給多個模型,然後再綜合產出。
能夠在不依賴蠻力運算的情況下達到前沿性能的編排模型的出現,其影響已超出任何單一公司。高盛的 1-Delta 交易部門主管 Rich Privorotsky 已將伺服器租賃成本視為 AI 硬體投資論點的核心指標。如果編排技術減少了對大規模 GPU 集群的需求,可能會對超大規模雲端服務商和 GPU 供應商的利潤率造成壓力。半導體 ETF 上週錄得異常高的資金流入,顯示市場仍押注於持續的算力需求——這是編排模型(如 Fugu)最終可能挑戰的賭注。
於 2025 年底在 B 輪融資中達到 26 億美元估值的 Sakana,同時也面臨來自開源陣營的競爭壓力。智譜 AI 的 GLM-5.2 在 FrontierSWE 基準上獲得 74.4 分,與 Claude Opus 4.8 的 75.1 分僅差 1 分,而定價卻比 Anthropic 的模型低 72% 至 82%。該模型採用 MIT 授權,並支援權重公開、模型蒸餾與量化。
Fugu 現已在大多數地區推出,但歐盟與歐洲經濟區暫時除外,因為 Sakana 正在努力使其不透明的數據路由架構符合 GDPR 法規。標準版訂閱價格從每月 20 美元起,企業級按用量付費方案則為生產工作負載提供更高的優先級。
對投資者而言,關鍵問題在於編排技術是傳統算力支出的補充還是替代方案。如果 Fugu 的方法獲得廣泛採用,可能會壓縮對最大 GPU 集群的需求——這對 Nvidia 和 AMD 來說是一項利空。但如果市場將其視為現有基礎設施之上的附加層,則可能擴大 AI 推理的整體可尋址市場。下一個信號將來自企業採用率,以及超大規模雲端服務商是否會調整其定價以作為回應。
本文僅供資訊參考,不構成投資建議。