Gemini 3 Flash logra una tasa de éxito del 95,1 %
Los primeros resultados de PinchBench, un nuevo benchmark que evalúa modelos de IA en tareas de agente complejas utilizando la herramienta OpenClaw, muestran que Gemini 3 Flash de Google lidera un campo de 32 modelos con una tasa de éxito del 95,1 %. Este rendimiento es notable ya que Flash se posiciona como un modelo ligero y eficiente, pero superó a competidores de peso pesado, incluyendo el GPT-4o de OpenAI (85,2 %), el buque insignia Claude Opus 4.6 de Anthropic (90,6 %), e incluso el propio Gemini 3 Pro de Google (91,7 %). Los resultados sugieren que para flujos de trabajo automatizados y de múltiples pasos, los modelos más pequeños optimizados pueden ofrecer una fiabilidad superior a la de los modelos más grandes y generalizados.
Los modelos chinos superan a GPT-4o en rendimiento
Los desarrolladores de IA chinos demostraron una fuerza competitiva significativa, con dos modelos asegurando posiciones entre los tres primeros en el ranking de tasas de éxito. El modelo M2.1 de MiniMax logró una tasa de éxito del 93,6 %, colocándolo en segundo lugar general, mientras que el modelo K2.5 de Kimi le siguió de cerca en tercer lugar con un 93,4 %. Ambos modelos superaron a GPT-4o y subrayan las capacidades de avance rápido del ecosistema de IA doméstico de China. Además, MiniMax también destacó en la velocidad de procesamiento, con su modelo M2.5 completando todo el conjunto de pruebas en 105,96 segundos, ocupando el primer lugar en velocidad.
Los altos costes socavan la eficiencia de los modelos insignia
El benchmark expone una marcada compensación entre el coste y el rendimiento entre los principales modelos de IA. Claude Opus 4.6 de Anthropic, a menudo considerado un modelo de primera línea, registró el coste más alto para completar la prueba, 5,89 dólares, pero su tasa de éxito del 90,6 % fue inferior a la de varias alternativas más baratas. Por ejemplo, MiniMax M2.1 ofreció una tasa de éxito más alta (93,6 %) por solo 0,14 dólares, lo que representa una fracción del coste. En el extremo inferior, GPT-5 Nano completó las tareas por solo 0,03 dólares con una tasa de éxito del 85,8 %. Estos datos indican que para las empresas que escalan agentes de IA, seleccionar un modelo basándose únicamente en la reputación de la marca o el tamaño puede ser una estrategia financieramente ineficiente, y que los modelos de nivel medio ofrecen un equilibrio más convincente entre coste y fiabilidad.