Google et l'IA chinoise surpassent OpenAI lors du premier benchmark d'agents

Edgen Stock·Mar 09 2026, 00:17

Partager sur

Partager sur

Copier le lien

Points clés à retenir

Le premier benchmark PinchBench révèle un nouveau paysage concurrentiel pour les agents IA, où des modèles plus légers et plus rentables surpassent les leaders établis de l'industrie. Les résultats montrent que pour les tâches automatisées complexes, la taille du modèle n'est pas le seul déterminant du succès, ce qui soulève de nouvelles considérations pour les développeurs et les entreprises adoptantes.

Le modèle léger de Google en tête : Gemini 3 Flash de Google, conçu pour la vitesse et l'efficacité, a décroché de manière inattendue la première place avec un taux de succès de 95,1 %, dépassant les modèles plus grands et plus proéminents.
L'IA chinoise démontre sa force : Deux modèles chinois, MiniMax M2.1 et Kimi K2.5, se sont classés parmi les trois premiers avec des taux de succès de 93,6 % et 93,4 % respectivement, surpassant le GPT-4o d'OpenAI.
L'efficacité des coûts défie les modèles phares : Le benchmark met en évidence des disparités de coûts importantes, le Claude Opus 4.6 d'Anthropic coûtant 5,89 $ par exécution, contre 0,14 $ pour MiniMax M2.1, ce dernier ayant pourtant obtenu un taux de succès plus élevé.

Gemini 3 Flash atteint un taux de succès de 95,1 %

Les premiers résultats de PinchBench, un nouveau benchmark évaluant les modèles d'IA sur des tâches d'agent complexes à l'aide de l'outil OpenClaw, montrent que le Gemini 3 Flash de Google est en tête d'un groupe de 32 modèles avec un taux de succès de 95,1 %. Cette performance est remarquable car Flash est positionné comme un modèle léger et efficace, mais il a surpassé des concurrents de poids lourd, notamment le GPT-4o d'OpenAI (85,2 %), le fleuron Claude Opus 4.6 d'Anthropic (90,6 %) et même le Gemini 3 Pro de Google (91,7 %). Les résultats suggèrent que pour les flux de travail automatisés et multi-étapes, des modèles plus petits et optimisés peuvent offrir une fiabilité supérieure à celle des modèles plus grands et plus généralisés.

Les modèles chinois surpassent le GPT-4o en termes de performances

Les développeurs chinois d'IA ont démontré une force concurrentielle significative, avec deux modèles se classant parmi les trois premiers en termes de taux de succès. Le modèle M2.1 de MiniMax a atteint un taux de succès de 93,6 %, le plaçant au deuxième rang général, tandis que le modèle K2.5 de Kimi le suivait de près à 93,4 %. Ces deux modèles ont surpassé le GPT-4o et soulignent les capacités en progression rapide de l'écosystème d'IA domestique chinois. De plus, MiniMax a également excellé en matière de vitesse de traitement, son modèle M2.5 ayant terminé l'ensemble de la suite de tests en 105,96 secondes, se classant premier pour la vélocité.

Les coûts élevés sapent l'efficacité des modèles phares

Le benchmark expose un net compromis entre le coût et la performance parmi les principaux modèles d'IA. Le Claude Opus 4.6 d'Anthropic, souvent considéré comme un modèle de premier plan, a enregistré le coût le plus élevé pour terminer le test, soit 5,89 $, pourtant son taux de succès de 90,6 % était inférieur à celui de plusieurs alternatives moins chères. Par exemple, MiniMax M2.1 a offert un taux de succès plus élevé (93,6 %) pour seulement 0,14 $, ce qui représente une fraction du coût. À l'extrémité inférieure, GPT-5 Nano a terminé les tâches pour seulement 0,03 $ avec un taux de succès de 85,8 %. Ces données indiquent que pour les entreprises qui déploient des agents IA, choisir un modèle basé uniquement sur la réputation de la marque ou la taille peut être une stratégie financièrement inefficace, les modèles de milieu de gamme offrant un équilibre plus convaincant entre coût et fiabilité.