主なポイント
初のPinchBenchベンチマークは、AIエージェントの新たな競争環境を明らかにし、より軽量で費用対効果の高いモデルが既存の業界リーダーを上回っています。この結果は、複雑な自動化タスクにおいて、モデルサイズが成功の唯一の決定要因ではないことを示しており、開発者や企業導入者にとって新たな考慮事項を生み出しています。
- Googleの軽量モデルがトップに: 速度と効率性のために設計されたGoogleのGemini 3 Flashは、より大規模で著名なモデルを上回り、予期せぬ形で95.1%の成功率で首位を獲得しました。
- 中国AIが実力発揮: 中国の2つのモデル、MiniMax M2.1とKimi K2.5が、それぞれ93.6%と93.4%の成功率でトップ3に入り、OpenAIのGPT-4oを上回りました。
- コスト効率がフラッグシップモデルに挑戦: このベンチマークは顕著なコスト格差を浮き彫りにしています。AnthropicのClaude Opus 4.6は1回の実行に5.89ドルかかるのに対し、MiniMax M2.1は0.14ドルとわずかであり、後者の方が高い成功率を達成しています。
