구글과 중국 AI, 첫 에이전트 벤치마크에서 OpenAI 능가

Edgen Stock·Mar 09 2026, 00:17

공유하기

링크 복사

주요 요점

첫 PinchBench 벤치마크는 AI 에이전트의 새로운 경쟁 구도를 드러냈으며, 더 가볍고 비용 효율적인 모델이 기존 업계 리더를 능가하고 있습니다. 이 결과는 복잡한 자동화 작업에서 모델 크기가 성공의 유일한 결정 요소가 아니며, 개발자와 기업 채택자에게 새로운 고려 사항을 제시한다는 것을 보여줍니다.

구글의 경량 모델 선두: 속도와 효율성을 위해 설계된 구글의 Gemini 3 Flash는 예상치 못하게 95.1%의 성공률로 최고 순위를 차지하며, 더 크고 유명한 모델들을 능가했습니다.
중국 AI의 강점 입증: 두 개의 중국 모델인 MiniMax M2.1과 Kimi K2.5는 각각 93.6%와 93.4%의 성공률로 상위 3위 안에 들었으며, OpenAI의 GPT-4o를 능가했습니다.
비용 효율성이 플래그십 모델에 도전: 이 벤치마크는 상당한 비용 차이를 강조합니다. Anthropic의 Claude Opus 4.6은 실행당 5.89달러의 비용이 드는 반면, MiniMax M2.1은 0.14달러에 불과하며, 후자가 더 높은 성공률을 달성했습니다.

Gemini 3 Flash, 95.1% 성공률 달성

OpenClaw 도구를 사용하여 복잡한 에이전트 작업을 AI 모델에서 평가하는 새로운 벤치마크인 PinchBench의 첫 결과에 따르면, 구글의 Gemini 3 Flash가 95.1%의 성공률로 32개 모델 중 선두를 차지했습니다. Flash는 경량, 고효율 모델로 포지셔닝되었음에도 불구하고 OpenAI의 GPT-4o(85.2%), Anthropic의 플래그십 Claude Opus 4.6(90.6%), 심지어 구글 자체 Gemini 3 Pro(91.7%)를 포함한 강력한 경쟁자들을 능가했다는 점에서 이 성능은 주목할 만합니다. 이 결과는 자동화된 다단계 워크플로우의 경우 최적화된 소형 모델이 더 크고 일반화된 모델보다 우수한 신뢰성을 제공할 수 있음을 시사합니다.

중국 모델, 성능에서 GPT-4o 능가

중국 AI 개발사들은 성공률 순위에서 두 개의 모델이 상위 3위 안에 들며 상당한 경쟁력을 입증했습니다. MiniMax의 M2.1 모델은 93.6%의 성공률로 전체 2위를 차지했으며, Kimi의 K2.5 모델은 93.4%로 근소한 차이로 3위를 기록했습니다. 두 모델 모두 GPT-4o를 능가했으며, 이는 중국 국내 AI 생태계의 빠르게 발전하는 역량을 강조합니다. 또한 MiniMax는 M2.5 모델이 105.96초 만에 전체 테스트 스위트를 완료하여 속도 면에서 1위를 차지하며 처리 속도에서도 뛰어난 성능을 보였습니다.

높은 비용, 플래그십 모델 효율성 저해

이 벤치마크는 선도적인 AI 모델들 사이에서 비용과 성능 사이에 현저한 상충 관계가 있음을 보여줍니다. 종종 최고급 모델로 간주되는 Anthropic의 Claude Opus 4.6은 테스트를 완료하는 데 가장 높은 비용인 5.89달러를 기록했지만, 90.6%의 성공률은 몇몇 더 저렴한 대안보다 낮았습니다. 예를 들어, MiniMax M2.1은 0.14달러라는 훨씬 적은 비용으로 더 높은 성공률(93.6%)을 달성했습니다. 가장 낮은 비용으로는 GPT-5 Nano가 0.03달러로 작업을 완료했으며 85.8%의 성공률을 보였습니다. 이 데이터는 AI 에이전트를 확장하는 기업의 경우 브랜드 평판이나 크기만으로 모델을 선택하는 것이 재정적으로 비효율적인 전략일 수 있으며, 중간급 모델이 비용과 신뢰성의 더 설득력 있는 균형을 제공할 수 있음을 나타냅니다.