Gemini 3 Flash, 95.1% 성공률 달성
OpenClaw 도구를 사용하여 복잡한 에이전트 작업을 AI 모델에서 평가하는 새로운 벤치마크인 PinchBench의 첫 결과에 따르면, 구글의 Gemini 3 Flash가 95.1%의 성공률로 32개 모델 중 선두를 차지했습니다. Flash는 경량, 고효율 모델로 포지셔닝되었음에도 불구하고 OpenAI의 GPT-4o(85.2%), Anthropic의 플래그십 Claude Opus 4.6(90.6%), 심지어 구글 자체 Gemini 3 Pro(91.7%)를 포함한 강력한 경쟁자들을 능가했다는 점에서 이 성능은 주목할 만합니다. 이 결과는 자동화된 다단계 워크플로우의 경우 최적화된 소형 모델이 더 크고 일반화된 모델보다 우수한 신뢰성을 제공할 수 있음을 시사합니다.
중국 모델, 성능에서 GPT-4o 능가
중국 AI 개발사들은 성공률 순위에서 두 개의 모델이 상위 3위 안에 들며 상당한 경쟁력을 입증했습니다. MiniMax의 M2.1 모델은 93.6%의 성공률로 전체 2위를 차지했으며, Kimi의 K2.5 모델은 93.4%로 근소한 차이로 3위를 기록했습니다. 두 모델 모두 GPT-4o를 능가했으며, 이는 중국 국내 AI 생태계의 빠르게 발전하는 역량을 강조합니다. 또한 MiniMax는 M2.5 모델이 105.96초 만에 전체 테스트 스위트를 완료하여 속도 면에서 1위를 차지하며 처리 속도에서도 뛰어난 성능을 보였습니다.
높은 비용, 플래그십 모델 효율성 저해
이 벤치마크는 선도적인 AI 모델들 사이에서 비용과 성능 사이에 현저한 상충 관계가 있음을 보여줍니다. 종종 최고급 모델로 간주되는 Anthropic의 Claude Opus 4.6은 테스트를 완료하는 데 가장 높은 비용인 5.89달러를 기록했지만, 90.6%의 성공률은 몇몇 더 저렴한 대안보다 낮았습니다. 예를 들어, MiniMax M2.1은 0.14달러라는 훨씬 적은 비용으로 더 높은 성공률(93.6%)을 달성했습니다. 가장 낮은 비용으로는 GPT-5 Nano가 0.03달러로 작업을 완료했으며 85.8%의 성공률을 보였습니다. 이 데이터는 AI 에이전트를 확장하는 기업의 경우 브랜드 평판이나 크기만으로 모델을 선택하는 것이 재정적으로 비효율적인 전략일 수 있으며, 중간급 모델이 비용과 신뢰성의 더 설득력 있는 균형을 제공할 수 있음을 나타냅니다.