核心要点
首个PinchBench基准测试揭示了AI代理领域新的竞争格局,其中更轻量、更具成本效益的模型正在超越已建立的行业领导者。结果表明,对于复杂的自动化任务,模型规模并非成功的唯一决定因素,这为开发人员和企业用户带来了新的考量。
- 谷歌轻量级模型领先: 谷歌的Gemini 3 Flash,专为速度和效率设计,意外地以95.1%的成功率位居榜首,超越了更大、更知名的模型。
- 中国AI展现实力: 两款中国模型,MiniMax M2.1和Kimi K2.5,分别以93.6%和93.4%的成功率位列前三,超越了OpenAI的GPT-4o。
- 成本效益挑战旗舰模型: 该基准测试强调了显著的成本差异,Anthropic的Claude Opus 4.6每次运行成本为5.89美元,而MiniMax M2.1仅为0.14美元,尽管后者成功率更高。
