Le paradoxe de Jevons stimule la demande de calcul IA alors que le coût des tokens chute de 1 000 fois

Le coût par token de l'IA a été divisé par 1 000 en trois ans, pourtant la consommation de calcul des entreprises explose — Uber a épuisé l'intégralité de son budget IA 2026 dès avril, et AT&T traite désormais 27 milliards de tokens par jour, contre 1 milliard il y a 18 mois.

« À chaque fois que nous obtenons la même unité d'intelligence à moindre coût, nous ne réduisons pas la consommation ; nous l'augmentons, car nous pouvons résoudre des tâches plus complexes avec le même budget », explique Roman Chernin, cofondateur et directeur commercial de Nebius, une société de cloud IA.

Ce phénomène, connu sous le nom de paradoxe de Jevons d'après l'économiste du XIXe siècle William Stanley Jevons, décrit comment les gains d'efficacité qui réduisent les coûts peuvent accroître la consommation totale de ressources. Dans une lettre publiée cette semaine dans le Wall Street Journal, l'économiste Maury Harris a soutenu que ce principe s'applique au calcul IA, où l'élasticité-prix de la demande pourrait s'avérer « hautement élastique ». Nebius, qui construit des clusters de GPU à grande échelle, a vu son action chuter de 40 % lors de la panique DeepSeek en janvier — pourtant, Chernin affirme que cette même semaine a été « probablement la meilleure semaine en termes de ventes », car les entreprises ont réalisé qu'elles pouvaient s'offrir l'inférence à grande échelle.

Les implications pour les investisseurs sont considérables. Goldman Sachs estime que les dépenses annuelles en infrastructures IA pourraient passer de 765 milliards de dollars en 2026 à 1 600 milliards de dollars d'ici 2031. Mais les gagnants dépendront des taux d'utilisation, de la discipline financière et de la capacité à absorber la volatilité des coûts des composants — les prix des puces mémoire ont été multipliés par six au cours de l'année écoulée, alors que la demande d'IA déborde des centres de données pour toucher l'ensemble de l'économie.

L'explosion des tokens frappe les budgets des entreprises

Le passage des chatbots expérimentaux aux systèmes d'IA agentique en est le principal moteur. Lorsque les entreprises passent de requêtes à un seul tour à des agents autonomes multi-étapes qui enchaînent les appels, récupèrent des documents et agissent, la consommation de tokens bondit d'un ordre de grandeur, voire plus. Un grand assureur santé a vu sa consommation mensuelle de tokens IA passer de 3 millions à plus de 150 millions en moins d'un an.

Cette flambée des dépenses redéfinit la tarification des fournisseurs. Anthropic a supprimé la tarification forfaitaire pour les entreprises après avoir découvert que les développeurs dépensaient des milliers de dollars en calcul sur des forfaits à 200 dollars par mois. OpenAI a converti Codex à une facturation par token le même mois. Tous les grands fournisseurs d'IA convergent vers une tarification à l'usage, créant ce que Chernin appelle un verrouillage structurel : chaque nouvel agent déployé accroît la dépendance envers les fournisseurs qui fixent le tarif et contrôlent les conditions.

Pourtant, du côté de la demande, l'histoire est bien différente de la panique qui a saisi les marchés en janvier. Lorsque la publication de DeepSeek a provoqué une chute de 40 % de l'action Nebius et une vente plus large des valeurs liées à l'infrastructure IA, les équipes d'ingénierie des entreprises faisaient exactement le contraire d'un repli — elles montaient en puissance. La baisse des coûts a rendu viables des applications auparavant non rentables, de la recherche interne de connaissances aux workflows clients automatisés.

Qui gagne quand le calcul devient moins cher

Les dynamiques concurrentielles favorisent les entreprises qui montent dans la pile technologique. Chernin estime que le marché de la location de GPU nus sert environ une douzaine de clients dans le monde. L'infrastructure gérée en atteint des centaines. Les plateformes d'inférence en attirent des milliers. Les systèmes agentiques, prédit-il, attireront des dizaines de milliers de développeurs.

Token Factory de Nebius, une plateforme d'inférence gérée, illustre cette stratégie. Le service permet aux entreprises d'exécuter des modèles open source sans gérer l'infrastructure back-end, en appliquant des techniques d'optimisation pour maintenir des coûts prévisibles. Pour les entreprises, la proposition de valeur est claire : les modèles hébergés gèrent la complexité du suivi des coûts, du maintien de la disponibilité et de l'acheminement des tâches entre différents modèles en fonction du budget et des exigences de rapidité.

Mais la couche d'inférence hébergée fait face à son propre risque de commoditisation. Une étude de 2026 a constaté une baisse d'environ 600 fois des prix d'inférence des grands modèles de langage entre 2020 et 2026, tandis que le rapport 2025 de l'OCDE sur les marchés de l'IA documentait des baisses marquées des prix des modèles ajustés à la qualité, à mesure que la concurrence s'élargit. Cela suggère que la pression sur les marges qui a frappé les fabricants de puces s'étend désormais vers le haut de la pile.

Pour les investisseurs, la question clé est de savoir quelles entreprises peuvent construire des fossés durables. Nvidia, qui se négocie à environ 35 fois les bénéfices à terme, fait face au risque qu'une inférence moins chère réduise la demande pour ses puces d'entraînement aux marges les plus élevées. Les hyperscalers du cloud — Amazon, Microsoft, Google — bénéficient de l'augmentation de la consommation de calcul mais font face à des besoins en capitaux croissants. Et les fournisseurs d'infrastructure comme Nebius doivent prouver qu'ils peuvent maintenir leur taux d'utilisation et leur pouvoir de fixation des prix à mesure que le marché s'étend.

Le paradoxe de Jevons suggère que le chiffre d'affaires total de l'industrie de l'IA augmentera même si les prix unitaires baissent. Mais capter ce chiffre d'affaires nécessite plus que la possession de capacités de calcul — cela nécessite les logiciels, les outils et les relations d'entreprise qui transforment la puissance de calcul brute en produits finis.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.