谷歌与中国AI在首个Agent基准测试中超越OpenAI

Edgen Stock·Mar 09 2026, 00:17

分享到

分享到

复制链接

核心要点

首个PinchBench基准测试揭示了AI代理领域新的竞争格局，其中更轻量、更具成本效益的模型正在超越已建立的行业领导者。结果表明，对于复杂的自动化任务，模型规模并非成功的唯一决定因素，这为开发人员和企业用户带来了新的考量。

谷歌轻量级模型领先： 谷歌的Gemini 3 Flash，专为速度和效率设计，意外地以95.1%的成功率位居榜首，超越了更大、更知名的模型。
中国AI展现实力： 两款中国模型，MiniMax M2.1和Kimi K2.5，分别以93.6%和93.4%的成功率位列前三，超越了OpenAI的GPT-4o。
成本效益挑战旗舰模型： 该基准测试强调了显著的成本差异，Anthropic的Claude Opus 4.6每次运行成本为5.89美元，而MiniMax M2.1仅为0.14美元，尽管后者成功率更高。

Gemini 3 Flash实现95.1%成功率

PinchBench是评估AI模型在复杂代理任务上表现的新基准，使用OpenClaw工具。其首次结果显示，谷歌的Gemini 3 Flash以95.1%的成功率在32个模型中脱颖而出。这一表现引人注目，因为Flash被定位为轻量级、高效的模型，却超越了重量级竞争对手，包括OpenAI的GPT-4o（85.2%）、Anthropic的旗舰产品Claude Opus 4.6（90.6%），甚至谷歌自家的Gemini 3 Pro（91.7%）。结果表明，对于自动化、多步骤工作流，经过优化的较小模型可以提供比更大、更通用模型更卓越的可靠性。

中国模型在性能上超越GPT-4o

中国AI开发商展现了显著的竞争实力，两款模型在成功率排名中位列前三。MiniMax的M2.1模型取得了93.6%的成功率，位居总榜第二，而Kimi的K2.5模型紧随其后，以93.4%的成功率位列第三。这两款模型均超越了GPT-4o，突显了中国国内AI生态系统快速发展的能力。此外，MiniMax还在处理速度上表现出色，其M2.5模型在105.96秒内完成了整个测试套件，速度排名第一。

高成本削弱旗舰模型效率

该基准测试揭示了领先AI模型在成本与性能之间存在的显著权衡。Anthropic的Claude Opus 4.6，常被认为是顶级模型，完成了测试，但成本最高，为5.89美元，然而其90.6%的成功率却低于几个更便宜的替代品。例如，MiniMax M2.1以仅0.14美元的成本实现了更高的成功率（93.6%），仅为前者的很小一部分。在最低端，GPT-5 Nano仅用0.03美元就完成了任务，成功率为85.8%。这些数据表明，对于扩展AI代理的企业而言，仅凭品牌声誉或规模选择模型可能是一种财务效率低下的策略，而中等模型能提供更具吸引力的成本与可靠性平衡。