Google repousse le lancement de Gemini 3.5 Pro à juillet pour davantage de tests

Le Gemini 3.5 Pro de Google, doté d'une fenêtre de contexte de 2 millions de tokens et du raisonnement Deep Think, arrivera désormais en juillet alors que l'entreprise intègre les retours des testeurs précoces — un retard qui risque de céder du terrain à OpenAI et Anthropic à un moment d'intense fluctuation du marché.

La décision de Google de repousser le Gemini 3.5 Pro à juillet donne à OpenAI et Anthropic plus de temps pour consolider leurs positions, alors que la fenêtre de contexte de 2 millions de tokens et le mode de raisonnement Deep Think du modèle étaient censés redessiner le paysage concurrentiel. L'entreprise visait auparavant un lancement en juin, le directeur général Sundar Pichai ayant indiqué aux développeurs lors de la conférence I/O du 19 mai que le modèle arriverait « le mois prochain ».

« Les semaines supplémentaires nous permettent d'intégrer des cas d'utilisation réels issus des premiers testeurs et de prendre en compte les retours sur Flash 3.5 », a déclaré une personne proche du dossier, confirmant que les critiques concernant le taux de consommation de tokens de Flash ont influencé le cycle de développement de Pro.

Le Gemini 3.5 Pro double le contexte de 1 million de tokens de Flash pour atteindre 2 millions — soit assez pour contenir environ 1 500 pages de documentation technique ou l'intégralité du code source d'une entreprise en un seul appel. C'est huit fois le contexte du Fable 5 d'Anthropic (256 000 tokens) et plus de 15 fois le niveau standard du GPT-5 d'OpenAI (128 000). Son mode de raisonnement par chaîne de pensée Deep Think cible la même catégorie de capacités que la réflexion étendue de Fable 5 et l'o3 d'OpenAI, bien qu'il soit conditionné à l'abonnement Ultra à 250 $ par mois de Google plutôt que proposé via une tarification API à l'usage. La prise en charge multimodale supporte le texte et les images au lancement, la vidéo et l'audio étant attendus dans une mise à jour ultérieure.

Ce retard survient à un moment étonnamment favorable pour le positionnement concurrentiel de Google. Le Fable 5 est restreint depuis le 12 juin suite à une directive de contrôle des exportations du gouvernement américain liée à l'incident de sécurité Anthropic Mythos, bien qu'il soit réapparu dans l'application Android d'Anthropic le 21 juin, l'accès API et web restant limité aux utilisateurs non gouvernementaux. OpenAI, quant à lui, fait face à une enquête du procureur général de 42 États lancée la même semaine et à des obligations de divulgation liées à son introduction en bourse qui ont ajouté une incertitude pour les entreprises autour de sa feuille de route produit.

Ce que permet la fenêtre de contexte de 2 millions de tokens

La fenêtre de contexte est le véritable différenciateur. La plupart des modèles frontières de production fonctionnent entre 128 000 et 256 000 tokens, obligeant les développeurs à construire des pipelines de génération augmentée par récupération qui segmentent les documents et récupèrent les sections pertinentes de manière séquentielle. Un modèle à 2 millions de tokens élimine cette architecture pour de nombreux cas d'usage : analyse de code sur l'intégralité d'un référentiel, examen de documents juridiques portant sur des portefeuilles de contrats dépassant 500 000 tokens, et états de conversation d'entreprise multi-sessions que les modèles actuels ne peuvent pas conserver.

L'implication tarifaire est significative. Au taux de 2 $ pour 1 million de tokens d'entrée du Gemini 3.1 Pro, un appel complet de 2 millions de tokens coûterait 4 $ rien que pour l'entrée — cher pour des tâches simples mais transformateur si l'on compare au maintien d'une infrastructure RAG personnalisée. Google n'a pas annoncé la tarification du Gemini 3.5 Pro, mais la structure de surcoût pour le contexte au-delà de 200 000 tokens déterminera si les cas d'usage à grand contexte deviennent économiquement viables à grande échelle.

Deep Think et la question du paiement par abonnement

Deep Think prolonge le temps de délibération du modèle avant de générer une réponse, produisant de meilleures performances en mathématiques, logique et tâches de raisonnement structuré. Les données internes suggèrent des gains de 10 à 15 points sur le benchmark SWE-bench Verified par rapport à la génération 3.1, bien que ces chiffres restent non vérifiés par des benchmarks externes.

Verrouiller le raisonnement étendu derrière un abonnement mensuel à 250 $ plutôt qu'une tarification API à l'usage crée des frictions pour le segment des développeurs qui accorde le plus d'importance à la qualité du raisonnement. Les clients entreprises disposant de postes fixes peuvent absorber le coût ; les développeurs individuels et les startups construisant des applications nécessitant un raisonnement intensif ne le peuvent pas. La pratique de Google avec les modèles Gemini précédents a été de lancer les capacités dans des paliers d'abonnement puis de les proposer ultérieurement via l'API — Deep Think suivra probablement cette voie.

Paysage concurrentiel et implications pour les investisseurs

La course à trois entre Google, OpenAI et Anthropic n'a rarement été aussi véritablement ouverte. Chaque fournisseur dispose de capacités significatives et de contraintes significatives. Pour Alphabet, le lancement du Gemini 3.5 Pro est central pour la monétisation des plus de 50 milliards de dollars de dépenses d'investissement annuelles que l'entreprise a engagées dans l'infrastructure IA. Nvidia, dont les GPU H100 et B200 alimentent la majorité des entraînements, bénéficiera quel que soit le fournisseur de modèles qui gagnera des parts de marché.

Si Google tarifie le contexte de 2 millions de tokens à un taux fixe plutôt qu'avec une majoration multipliée, cela modifie substantiellement le modèle de coût pour les applications à grand contexte. Les chiffres de benchmark qui accompagneront l'annonce de disponibilité générale importeront moins que la page de tarification — les modèles frontières sont suffisamment proches en capacités pour que le coût et la taille du contexte déterminent l'adoption à grande échelle davantage que des différences de 2 à 3 points sur les benchmarks.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.