Google y la IA china superan a OpenAI en el primer benchmark de agentes

Edgen Stock·Mar 09 2026, 00:17

Compartir a

Compartir a

Copiar enlace

Puntos clave

El benchmark inaugural de agentes de IA PinchBench revela un nuevo panorama competitivo, donde los modelos más ligeros y rentables superan a los líderes establecidos de la industria. Los resultados muestran que, para tareas complejas y automatizadas, el tamaño del modelo no es el único determinante del éxito, lo que genera nuevas consideraciones para desarrolladores y empresas adoptantes.

El modelo ligero de Google lidera: Gemini 3 Flash de Google, diseñado para velocidad y eficiencia, obtuvo inesperadamente el primer puesto con una tasa de éxito del 95,1 %, superando a modelos más grandes y prominentes.
La IA china demuestra su fortaleza: Dos modelos chinos, MiniMax M2.1 y Kimi K2.5, se ubicaron entre los tres primeros con tasas de éxito del 93,6 % y 93,4 %, respectivamente, superando al GPT-4o de OpenAI.
La eficiencia de costes desafía a los modelos insignia: El benchmark destaca importantes disparidades de costes, con Claude Opus 4.6 de Anthropic costando 5,89 dólares por ejecución en comparación con los 0,14 dólares de MiniMax M2.1, a pesar de que este último logró una tasa de éxito más alta.

Gemini 3 Flash logra una tasa de éxito del 95,1 %

Los primeros resultados de PinchBench, un nuevo benchmark que evalúa modelos de IA en tareas de agente complejas utilizando la herramienta OpenClaw, muestran que Gemini 3 Flash de Google lidera un campo de 32 modelos con una tasa de éxito del 95,1 %. Este rendimiento es notable ya que Flash se posiciona como un modelo ligero y eficiente, pero superó a competidores de peso pesado, incluyendo el GPT-4o de OpenAI (85,2 %), el buque insignia Claude Opus 4.6 de Anthropic (90,6 %), e incluso el propio Gemini 3 Pro de Google (91,7 %). Los resultados sugieren que para flujos de trabajo automatizados y de múltiples pasos, los modelos más pequeños optimizados pueden ofrecer una fiabilidad superior a la de los modelos más grandes y generalizados.

Los modelos chinos superan a GPT-4o en rendimiento

Los desarrolladores de IA chinos demostraron una fuerza competitiva significativa, con dos modelos asegurando posiciones entre los tres primeros en el ranking de tasas de éxito. El modelo M2.1 de MiniMax logró una tasa de éxito del 93,6 %, colocándolo en segundo lugar general, mientras que el modelo K2.5 de Kimi le siguió de cerca en tercer lugar con un 93,4 %. Ambos modelos superaron a GPT-4o y subrayan las capacidades de avance rápido del ecosistema de IA doméstico de China. Además, MiniMax también destacó en la velocidad de procesamiento, con su modelo M2.5 completando todo el conjunto de pruebas en 105,96 segundos, ocupando el primer lugar en velocidad.

Los altos costes socavan la eficiencia de los modelos insignia

El benchmark expone una marcada compensación entre el coste y el rendimiento entre los principales modelos de IA. Claude Opus 4.6 de Anthropic, a menudo considerado un modelo de primera línea, registró el coste más alto para completar la prueba, 5,89 dólares, pero su tasa de éxito del 90,6 % fue inferior a la de varias alternativas más baratas. Por ejemplo, MiniMax M2.1 ofreció una tasa de éxito más alta (93,6 %) por solo 0,14 dólares, lo que representa una fracción del coste. En el extremo inferior, GPT-5 Nano completó las tareas por solo 0,03 dólares con una tasa de éxito del 85,8 %. Estos datos indican que para las empresas que escalan agentes de IA, seleccionar un modelo basándose únicamente en la reputación de la marca o el tamaño puede ser una estrategia financieramente ineficiente, y que los modelos de nivel medio ofrecen un equilibrio más convincente entre coste y fiabilidad.