El Gemini 3.5 Pro de Google, con una ventana de contexto de 2 millones de tokens y razonamiento Deep Think, llegará en julio mientras la empresa incorpora comentarios de los primeros evaluadores — un retraso que corre el riesgo de ceder terreno a OpenAI y Anthropic en un momento de intensa turbulencia en el mercado.
La decisión de Google de retrasar Gemini 3.5 Pro hasta julio le da a OpenAI y Anthropic más tiempo para consolidar sus posiciones, ya que se esperaba que la ventana de contexto de 2 millones de tokens y el modo de razonamiento Deep Think del modelo redefinieran el panorama competitivo. La empresa había fijado previamente el objetivo de lanzarlo en junio, y el director ejecutivo Sundar Pichai anunció a los desarrolladores en la conferencia I/O del 19 de mayo que el modelo llegaría "el próximo mes".
"Las semanas adicionales nos permiten incorporar casos de uso del mundo real de los primeros evaluadores y abordar los comentarios sobre Flash 3.5", dijo una persona familiarizada con el asunto, confirmando que las críticas a la tasa de consumo de tokens de Flash influyeron en el ciclo de desarrollo de Pro.
Gemini 3.5 Pro duplica el contexto de 1 millón de tokens de Flash a 2 millones — suficiente para albergar aproximadamente 1,500 páginas de documentación técnica o un código empresarial completo en una sola llamada. Esto es ocho veces el contexto de Fable 5 de Anthropic, con 256,000 tokens, y más de 15 veces el nivel estándar de GPT-5 de OpenAI, con 128,000. Su modo de razonamiento de cadena de pensamiento Deep Think se dirige a la misma categoría de capacidad que el pensamiento extendido de Fable 5 y el o3 de OpenAI, aunque estará restringido tras la suscripción Ultra de $250 al mes de Google, en lugar de ofrecerse con precios de API basados en uso. La entrada multimodal admite texto e imágenes en el lanzamiento, y se espera que el video y el audio lleguen en una actualización posterior.
El retraso llega en un momento inusualmente favorable para el posicionamiento competitivo de Google. Fable 5 ha estado restringido desde el 12 de junio tras la directiva de control de exportaciones del gobierno de EE. UU. relacionada con el incidente de seguridad de Anthropic Mythos, aunque reapareció en la aplicación Android de Anthropic el 21 de junio, con el acceso a API y web aún limitado a usuarios no gubernamentales. OpenAI, por su parte, enfrenta una investigación de 42 fiscales generales estatales iniciada la misma semana y requisitos de divulgación de OPI que han añadido incertidumbre empresarial en torno a su hoja de ruta de productos.
Lo que permite la ventana de contexto de 2 millones de tokens
La ventana de contexto es el verdadero factor diferenciador. La mayoría de los modelos fronterizos de producción operan entre 128,000 y 256,000 tokens, lo que obliga a los desarrolladores a construir canales de generación aumentada por recuperación que fragmentan documentos y recuperan secciones relevantes de forma secuencial. Un modelo de 2 millones de tokens elimina esa arquitectura para muchos casos de uso: análisis de código de repositorios completos, revisión de documentos legales en carteras de contratos que superan los 500,000 tokens y estados de conversación empresarial de múltiples sesiones que los modelos actuales no pueden mantener.
La implicación en los precios es significativa. A la tarifa de Gemini 3.1 Pro de $2 por cada millón de tokens de entrada, una llamada completa de 2 millones de tokens costaría $4 solo por entrada — costoso para tareas simples, pero transformativamente barato en comparación con mantener una infraestructura RAG personalizada. Google no ha anunciado los precios de Gemini 3.5 Pro, pero la estructura de recargo por contexto por encima de los 200,000 tokens determinará si los casos de uso de gran contexto se vuelven económicamente viables a escala.
Deep Think y la cuestión del acceso por suscripción
Deep Think extiende el tiempo de deliberación del modelo antes de generar una respuesta, produciendo un mejor rendimiento en tareas de matemáticas, lógica y razonamiento estructurado. Los datos internos sugieren mejoras de 10 a 15 puntos en SWE-bench Verified en comparación con la generación 3.1, aunque esas cifras aún no han sido verificadas por evaluaciones externas.
Bloquear el razonamiento extendido tras una suscripción mensual de $250 en lugar de un precio de API basado en uso crea fricción para el segmento de desarrolladores que más valora la calidad del razonamiento. Los clientes empresariales con puestos fijos pueden absorber el costo; los desarrolladores individuales y las startups que construyen aplicaciones intensivas en razonamiento no pueden. El patrón de Google con modelos Gemini anteriores ha sido lanzar capacidades en niveles de suscripción y luego liberarlas a través de la API — Deep Think probablemente seguirá ese camino.
Panorama competitivo e implicaciones para los inversores
La carrera a tres bandas entre Google, OpenAI y Anthropic rara vez ha estado más abierta de verdad. Cada proveedor tiene capacidades significativas y limitaciones significativas. Para Alphabet, el lanzamiento de Gemini 3.5 Pro es fundamental para monetizar los más de $50 mil millones en gastos de capital anuales que la empresa ha comprometido para infraestructura de IA. Nvidia, cuyas GPU H100 y B200 alimentan la mayoría de los entrenamientos, se beneficiará independientemente de qué proveedor de modelos gane participación de mercado.
Si Google fija el precio del contexto de 2 millones de tokens a una tarifa fija en lugar de un recargo multiplicado, cambiará sustancialmente el modelo de costos para las aplicaciones de gran contexto. Los puntos de referencia que lleguen con el anuncio de disponibilidad general importarán menos que la página de precios — los modelos fronterizos están lo suficientemente cerca en capacidad que el costo y el tamaño del contexto determinan la adopción a escala más que las diferencias de 2 a 3 puntos en los puntos de referencia.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.