Quatre-vingt-quinze pour cent des charges de travail d'IA en entreprise tournent encore sur des modèles frontaliers premium — même pour des tâches simples comme la synthèse de texte et la classification d'e-mails — alors que les directeurs financiers commencent à échanger des effectifs futurs contre des tokens moins chers, dans un changement structurel qui redessine les budgets technologiques des entreprises.
« La question du coût par token est passée du service technique à la salle du conseil », déclare Alex Nguyen, analyste IA entreprise chez Edgen. « Les directeurs financiers réalisent qu'ils peuvent remplacer trois analystes juniors par un agent d'IA fonctionnant sur un modèle moins cher, et le calcul est rentable à 10 fois le volume. »
L'arithmétique est implacable. Le modèle V4 Pro de DeepSeek, qui atteint 80,6 % au benchmark de codage SWE-bench Verified et 87,5 à l'indice de raisonnement avancé MMLU-Pro, coûte 0,435 $ par million de tokens d'entrée et 0,87 $ par million de tokens de sortie — soit 7 fois moins cher en entrées et 17 fois moins cher en sorties que le Claude Sonnet d'Anthropic ou le GPT-5.5-Med d'OpenAI. Sa variante légère V4 Flash sous-cote les alternatives d'entrée de gamme comme Claude Haiku de 10 à 25 fois. Hébergé en Chine, le tarif de lecture en cache de DeepSeek est 87 fois moins cher que les alternatives cloud occidentales, selon les tarifs publiés par l'entreprise.
L'écart de coût force une remise en question. Uber a épuisé l'intégralité de son budget 2026 pour Claude Code et Cursor au cours des quatre premiers mois de l'année, son directeur de l'exploitation déclarant au personnel que la dépense devenait « plus difficile à justifier » sans de meilleurs produits à montrer. Brian Chesky d'Airbnb a indiqué que l'entreprise évite de dépendre fortement des derniers modèles d'OpenAI en production, privilégiant des alternatives plus rapides et moins chères comme Qwen d'Alibaba. Le directeur technologique de Pinterest a confirmé que l'entreprise avait atteint une qualité comparable aux modèles frontaliers avec une réduction de 90 % des coûts en post-entraînant le modèle ouvert Qwen d'Alibaba sur son « graphe de goût » propriétaire.
La crise du coût des tokens accélère une bifurcation permanente du marché de l'IA d'entreprise. L'enquête du premier trimestre 2026 de VentureBeat auprès des utilisateurs en entreprise d'organisations de plus de 100 employés révèle que le « coût par token ou modèle de licence » est passé de 25,4 % à 36,7 % comme critère de sélection principal entre janvier et mars, derrière seulement la performance brute. Les environnements de production en entreprise déploient désormais une médiane de 14 modèles différents simultanément pour router les charges de travail en fonction des prix et éviter la dépendance à un seul fournisseur, selon une analyse d'infrastructure d'Andreessen Horowitz.
Sur OpenRouter, un proxy majeur pour développeurs d'utilisation de modèles, le V4 Flash de DeepSeek a pris la première place la semaine dernière avec une augmentation de 48 % de la consommation de tokens. Les trois principaux modèles de DeepSeek ont traité près de 6 billions de tokens sur la plateforme, tandis que le premium GPT-5.5 d'OpenAI a glissé à la 15e place avec 470 milliards de tokens. OpenRouter a récemment levé une série B de 113 millions de dollars soutenue par ServiceNow Ventures, Snowflake Ventures, Databricks Ventures, NVentures de Nvidia et CapitalG de Google — un signal que les fournisseurs d'infrastructure pour entreprises parient sur le routage multi-modèles comme architecture par défaut.
La compression structurelle des marges ne touchera pas également tous les laboratoires occidentaux. Anthropic reste protégé par ses produits logiciels premium comme Claude Code, où les équipes d'ingénieurs paient pour une précision déterministe dans le développement de production de base. OpenAI est davantage exposé : une plus grande part de ses revenus en entreprise repose sur des flux de tokens API à haut volume et à usage général — précisément la couche de commodité que les modèles ouverts sont en train de commoditiser. L'architecture de DeepSeek, qui compresse le cache de clés-valeurs de son modèle de 1,6 billion de paramètres à 5,48 gigaoctets de mémoire à large bande passante pour une boucle de contexte d'un million de tokens — contre 89 gigaoctets pour les architectures occidentales comparables — rend l'avantage de coût structurel plutôt que promotionnel.
Pour les acheteurs de technologies d'entreprise, le calcul passe de « quel est le meilleur modèle » à « quel modèle est le meilleur pour cette tâche spécifique à ce prix ». Les entreprises qui ne parviennent pas à optimiser leur routage d'inférence risquent une compression de leurs marges à mesure que la consommation de tokens d'IA croît de façon exponentielle avec le déploiement d'agents autonomes multi-étapes. Celles qui adoptent des architectures de modèles hiérarchisées — réservant les modèles frontaliers premium au raisonnement critique tout en routant les tâches de fond à haut volume vers des alternatives ouvertes moins chères — pourront capter les économies que les directeurs financiers exigent désormais.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.