Gemini 3 Flash atteint un taux de succès de 95,1 %
Les premiers résultats de PinchBench, un nouveau benchmark évaluant les modèles d'IA sur des tâches d'agent complexes à l'aide de l'outil OpenClaw, montrent que le Gemini 3 Flash de Google est en tête d'un groupe de 32 modèles avec un taux de succès de 95,1 %. Cette performance est remarquable car Flash est positionné comme un modèle léger et efficace, mais il a surpassé des concurrents de poids lourd, notamment le GPT-4o d'OpenAI (85,2 %), le fleuron Claude Opus 4.6 d'Anthropic (90,6 %) et même le Gemini 3 Pro de Google (91,7 %). Les résultats suggèrent que pour les flux de travail automatisés et multi-étapes, des modèles plus petits et optimisés peuvent offrir une fiabilité supérieure à celle des modèles plus grands et plus généralisés.
Les modèles chinois surpassent le GPT-4o en termes de performances
Les développeurs chinois d'IA ont démontré une force concurrentielle significative, avec deux modèles se classant parmi les trois premiers en termes de taux de succès. Le modèle M2.1 de MiniMax a atteint un taux de succès de 93,6 %, le plaçant au deuxième rang général, tandis que le modèle K2.5 de Kimi le suivait de près à 93,4 %. Ces deux modèles ont surpassé le GPT-4o et soulignent les capacités en progression rapide de l'écosystème d'IA domestique chinois. De plus, MiniMax a également excellé en matière de vitesse de traitement, son modèle M2.5 ayant terminé l'ensemble de la suite de tests en 105,96 secondes, se classant premier pour la vélocité.
Les coûts élevés sapent l'efficacité des modèles phares
Le benchmark expose un net compromis entre le coût et la performance parmi les principaux modèles d'IA. Le Claude Opus 4.6 d'Anthropic, souvent considéré comme un modèle de premier plan, a enregistré le coût le plus élevé pour terminer le test, soit 5,89 $, pourtant son taux de succès de 90,6 % était inférieur à celui de plusieurs alternatives moins chères. Par exemple, MiniMax M2.1 a offert un taux de succès plus élevé (93,6 %) pour seulement 0,14 $, ce qui représente une fraction du coût. À l'extrémité inférieure, GPT-5 Nano a terminé les tâches pour seulement 0,03 $ avec un taux de succès de 85,8 %. Ces données indiquent que pour les entreprises qui déploient des agents IA, choisir un modèle basé uniquement sur la réputation de la marque ou la taille peut être une stratégie financièrement inefficace, les modèles de milieu de gamme offrant un équilibre plus convaincant entre coût et fiabilité.