Googleと中国AIが初のAIエージェントベンチマークでOpenAIを上回る

Edgen Stock·Mar 09 2026, 00:17

共有先

共有先

リンクをコピー

主なポイント

初のPinchBenchベンチマークは、AIエージェントの新たな競争環境を明らかにし、より軽量で費用対効果の高いモデルが既存の業界リーダーを上回っています。この結果は、複雑な自動化タスクにおいて、モデルサイズが成功の唯一の決定要因ではないことを示しており、開発者や企業導入者にとって新たな考慮事項を生み出しています。

Googleの軽量モデルがトップに： 速度と効率性のために設計されたGoogleのGemini 3 Flashは、より大規模で著名なモデルを上回り、予期せぬ形で95.1%の成功率で首位を獲得しました。
中国AIが実力発揮： 中国の2つのモデル、MiniMax M2.1とKimi K2.5が、それぞれ93.6%と93.4%の成功率でトップ3に入り、OpenAIのGPT-4oを上回りました。
コスト効率がフラッグシップモデルに挑戦： このベンチマークは顕著なコスト格差を浮き彫りにしています。AnthropicのClaude Opus 4.6は1回の実行に5.89ドルかかるのに対し、MiniMax M2.1は0.14ドルとわずかであり、後者の方が高い成功率を達成しています。

Gemini 3 Flashが95.1%の成功率を達成

AIモデルの複雑なエージェントタスクをOpenClawツールで評価する新しいベンチマークであるPinchBenchの最初の結果によると、GoogleのGemini 3 Flashが95.1%の成功率で32モデル中トップに立ちました。Flashは軽量で効率的なモデルとして位置付けられているにもかかわらず、OpenAIのGPT-4o（85.2%）、Anthropicの主力であるClaude Opus 4.6（90.6%）、さらにはGoogle自身のGemini 3 Pro（91.7%）といった強力な競合他社を上回ったという点で、このパフォーマンスは注目に値します。この結果は、自動化された多段階ワークフローにおいては、最適化された小規模モデルが、より大規模で汎用的なモデルよりも優れた信頼性を提供できる可能性を示唆しています。

中国モデルが性能面でGPT-4oを上回る

中国のAI開発者は、成功率ランキングで2つのモデルがトップ3に入ることで、顕著な競争力を示しました。MiniMaxのM2.1モデルは93.6%の成功率を達成し、総合で2位に、KimiのK2.5モデルは93.4%で僅差の3位に続きました。どちらのモデルもGPT-4oを上回り、中国国内のAIエコシステムの急速な進歩能力を強調しています。さらに、MiniMaxは処理速度においても優れており、M2.5モデルはテストスイート全体を105.96秒で完了し、速度で1位を獲得しました。

高コストがフラッグシップモデルの効率を損なう

このベンチマークは、主要なAIモデル間のコストとパフォーマンスにおける顕著なトレードオフを露呈しています。AnthropicのClaude Opus 4.6は、しばしば一流モデルと見なされますが、テスト完了に最も高い5.89ドルのコストを記録しました。しかし、その90.6%の成功率は、より安価な代替品のいくつかよりも低いものでした。例えば、MiniMax M2.1はわずか0.14ドルでより高い成功率（93.6%）を達成し、コストのごく一部で済みました。最も安価なGPT-5 Nanoは、わずか0.03ドルでタスクを完了し、85.8%の成功率でした。このデータは、AIエージェントを拡張する企業にとって、ブランドの評判やサイズだけでモデルを選択することが財政的に非効率な戦略となる可能性があり、中堅モデルがコストと信頼性のより魅力的なバランスを提供することを示しています。