核心要點
首個PinchBench基準測試揭示了AI代理領域新的競爭格局,其中更輕量、更具成本效益的模型正在超越已建立的行業領導者。結果表明,對於複雜的自動化任務,模型規模並非成功的唯一決定因素,這為開發人員和企業用戶帶來了新的考量。
- 谷歌輕量級模型領先: 谷歌的Gemini 3 Flash,專為速度和效率設計,意外地以95.1%的成功率位居榜首,超越了更大、更知名的模型。
- 中國AI展現實力: 兩款中國模型,MiniMax M2.1和Kimi K2.5,分別以93.6%和93.4%的成功率位列前三,超越了OpenAI的GPT-4o。
- 成本效益挑戰旗艦模型: 該基準測試強調了顯著的成本差異,Anthropic的Claude Opus 4.6每次運行成本為5.89美元,而MiniMax M2.1僅為0.14美元,儘管後者成功率更高。
