Le PDG de Coinbase prédit que 80 % des charges de travail IA passeront à des modèles 99 % moins chers

L'ère de l'IA bon marché et illimitée touche à sa fin — et un marché à deux vitesses pour l'intelligence émerge.

Brian Armstrong, directeur général de Coinbase, a prédit que 80 % des charges de travail liées à l'intelligence artificielle basculeront vers des modèles coûtant 99 % de moins que les systèmes de pointe actuels d'ici 12 à 18 mois, alors que l'industrie fait face au caractère insoutenable des prix subventionnés.

« Le facteur limitant sera l'énergie et la puissance de calcul, pas de meilleurs modèles », a écrit Armstrong sur X dimanche, en réponse à un message de l'investisseur Tommy Shaughnessy décrivant comment la facturation à l'usage des API pousse les dépenses des entreprises en IA bien au-delà de ce que les abonnements à tarif forfaitaire leur avaient laissé espérer. Armstrong a indiqué que Coinbase oriente déjà ses requêtes vers des modèles moins chers lorsque cela est pertinent, maintenant ses coûts d'IA « à peu près stables » même si l'utilisation de jetons croît de façon exponentielle.

Les prévisions du PDG de Coinbase interviennent quelques jours après que GitHub Copilot, propriété de Microsoft, soit passé d'un abonnement forfaitaire à une facturation par jeton le 1er juin, entraînant pour certains utilisateurs des augmentations de factures allant jusqu'à 1 700 %. Un abonné a publié une estimation interne montrant que ses frais mensuels passaient de 44,68 $ à 754,29 $, tandis qu'un autre prévoyait une facture de 847 $. Cette refonte tarifaire reflète une prise de conscience plus large : la marge opérationnelle d'OpenAI est proche de -122 %, selon Shaughnessy, ce qui signifie que l'entreprise dépend entièrement de capitaux externes pour subventionner ses achats de GPU et ses coûts d'inférence.

Le marché de l'intelligence à deux vitesses

Le cadre d'analyse d'Armstrong divise l'utilisation de l'IA en deux catégories. Les 20 % restants des charges de travail nécessitant des performances de pointe — recherche scientifique, orchestration d'agents et ce qu'il a appelé la « maximisation du QI » — continueront à fonctionner sur des modèles de pointe comme l'Opus 4.8 d'Anthropic ou le GPT-5.5 d'OpenAI. Les 80 % restants basculeront vers des alternatives moins coûteuses, une dynamique qu'il a comparée au matériel grand public, où la plupart des acheteurs renoncent aux configurations maximales des MacBook et des PC gaming.

Les données économiques soutiennent déjà cette divergence. DeepSeek V4 offre des performances comparables à celles de Claude Opus d'Anthropic sur le benchmark de codage SWE-bench, pour un coût environ trente fois inférieur, selon Shaughnessy. Clement Delangue, PDG de Hugging Face, a cité une étude de Stanford montrant que la précision des modèles locaux sur les requêtes de conversation et de raisonnement en situation réelle est passée de 23,2 % à 71,3 % en 2023, pour une fraction de l'énergie et du coût des appels API.

Aaron Levie, PDG de Box, a qualifié le chiffre de 99 % avancé par Armstrong de « un peu extrême », mais a convenu que l'utilisation de l'IA se stratifiera, les travaux haut de gamme revenant aux modèles leaders et les tâches à grand volume aux modèles bon marché. « L'allocation de l'intelligence va être extrêmement importante », a écrit Winston Weinberg, cofondateur de Harvey. Tony Gentilcore, cofondateur de Glean, a jugé l'analyse d'Armstrong « parfaitement juste », ajoutant que « les marchés financiers sont les seuls à extrapoler les prix d'Opus à une échelle infinie ».

Le volet investissement

Ce basculement vers des modèles moins chers menace les modèles de revenus des fournisseurs d'IA premium, notamment OpenAI, Microsoft et Anthropic, qui ont compté sur des abonnements subventionnés pour gagner des parts de marché. Si 80 % des charges de travail migrent vers des alternatives à faible coût, le marché adressable des modèles de pointe se réduit considérablement. Les entreprises permettant une inférence rentable — notamment les fournisseurs de modèles open source et les infrastructures de routage — devraient en bénéficier. Nvidia, dont les GPU H100 et B200 alimentent la plupart des formations de modèles de pointe, fait face à des perspectives plus complexes : la demande en puissance de calcul pourrait augmenter, mais le pouvoir de fixation des prix pourrait s'éroder à mesure que des alternatives moins chères se multiplient.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.