谷歌與中國AI在首個Agent基準測試中超越OpenAI

Edgen Stock·Mar 09 2026, 00:17

分享至

分享至

複製連結

核心要點

首個PinchBench基準測試揭示了AI代理領域新的競爭格局，其中更輕量、更具成本效益的模型正在超越已建立的行業領導者。結果表明，對於複雜的自動化任務，模型規模並非成功的唯一決定因素，這為開發人員和企業用戶帶來了新的考量。

谷歌輕量級模型領先： 谷歌的Gemini 3 Flash，專為速度和效率設計，意外地以95.1%的成功率位居榜首，超越了更大、更知名的模型。
中國AI展現實力： 兩款中國模型，MiniMax M2.1和Kimi K2.5，分別以93.6%和93.4%的成功率位列前三，超越了OpenAI的GPT-4o。
成本效益挑戰旗艦模型： 該基準測試強調了顯著的成本差異，Anthropic的Claude Opus 4.6每次運行成本為5.89美元，而MiniMax M2.1僅為0.14美元，儘管後者成功率更高。

Gemini 3 Flash實現95.1%成功率

PinchBench是評估AI模型在複雜代理任務上表現的新基準，使用OpenClaw工具。其首次結果顯示，谷歌的Gemini 3 Flash以95.1%的成功率在32個模型中脫穎而出。這一表現引人注目，因為Flash被定位為輕量級、高效的模型，卻超越了重量級競爭對手，包括OpenAI的GPT-4o（85.2%）、Anthropic的旗艦產品Claude Opus 4.6（90.6%），甚至谷歌自家的Gemini 3 Pro（91.7%）。結果表明，對於自動化、多步驟工作流，經過優化的較小模型可以提供比更大、更通用模型更卓越的可靠性。

中國模型在性能上超越GPT-4o

中國AI開發商展現了顯著的競爭實力，兩款模型在成功率排名中位列前三。MiniMax的M2.1模型取得了93.6%的成功率，位居總榜第二，而Kimi的K2.5模型緊隨其後，以93.4%的成功率位列第三。這兩款模型均超越了GPT-4o，突顯了中國國內AI生態系統快速發展的能力。此外，MiniMax還在處理速度上表現出色，其M2.5模型在105.96秒內完成了整個測試套件，速度排名第一。

高成本削弱旗艦模型效率

該基準測試揭示了領先AI模型在成本與性能之間存在的顯著權衡。Anthropic的Claude Opus 4.6，常被認為是頂級模型，完成了測試，但成本最高，為5.89美元，然而其90.6%的成功率卻低於幾個更便宜的替代品。例如，MiniMax M2.1以僅0.14美元的成本實現了更高的成功率（93.6%），僅為前者的很小一部分。在最低端，GPT-5 Nano僅用0.03美元就完成了任務，成功率為85.8%。這些數據表明，對於擴展AI代理的企業而言，僅憑品牌聲譽或規模選擇模型可能是一種財務效率低下的策略，而中等模型能提供更具吸引力的成本與可靠性平衡。