OpenAI et Nvidia misent 40 milliards de dollars sur une guerre de l'inférence IA

Une bataille stratégique pour la prochaine phase de l'intelligence artificielle s'intensifie, OpenAI et Nvidia engageant collectivement plus de 40 milliards de dollars pour assurer leur domination dans l'inférence IA — le processus d'utilisation d'un modèle entraîné pour générer des réponses. Ces mouvements menacent de bouleverser un marché que Nvidia contrôlait seul et signalent un changement architectural majeur dans l'industrie des semi-conducteurs.

Les premiers coups de feu du conflit ont été tirés en décembre 2025 avec l'acquisition discrète par Nvidia de Groq, une startup spécialisée dans les puces d'inférence à haute vitesse, pour 20 milliards de dollars. La contre-attaque a eu lieu le 17 avril 2026, lorsque des rapports ont révélé qu'OpenAI dépenserait plus de 20 milliards de dollars en puces auprès de la startup rivale Cerebras Systems, prenant une participation allant jusqu'à 10 % dans l'entreprise. Cerebras a déposé un dossier d'introduction en bourse (IPO) de 35 milliards de dollars le même jour.

Ces deux accords soulignent un rééquilibrage fondamental dans l'industrie de l'IA. Si l'entraînement de grands modèles comme GPT-4 est coûteux en calcul, il s'agit d'un coût unique. L'inférence, qui se produit chaque fois qu'un utilisateur pose une question, représente une dépense continue et finalement plus importante. Selon une étude de marché du CES 2026, l'inférence devrait représenter les deux tiers de toutes les dépenses de calcul IA en 2026, un chiffre qui, selon certains dirigeants, pourrait atteindre 80 %.

« Le centre de gravité de l'industrie de l'IA se déplace rapidement des sessions d'entraînement ponctuelles vers des milliards de requêtes d'inférence quotidiennes », a noté un analyste technologique. « Ce n'est pas seulement un marché plus grand ; c'est un marché techniquement différent, et la domination de Nvidia n'y est plus garantie. »

### Une fracture architecturale s'ouvre
Le cœur du conflit réside dans la conception des puces. Les GPU de Nvidia, tels que le H100, sont optimisés pour les calculs parallèles massifs requis pour l'entraînement. Cependant, leur dépendance à la mémoire externe à large bande passante (HBM) crée un goulot d'étranglement pour l'inférence, où la vitesse de récupération des poids du modèle depuis la mémoire est le principal facteur limitant.

Cerebras et Groq ont suivi une voie différente. Leurs puces — respectivement le Wafer Scale Engine (WSE) et la Language Processing Unit (LPU) — intègrent de grandes quantités de SRAM ultra-rapide directement sur le silicium, aux côtés des cœurs de traitement. Cette conception réduit considérablement la latence de la mémoire, permettant des vitesses d'inférence qui seraient 15 à 20 fois plus rapides que les offres actuelles de Nvidia pour certaines tâches.

L'achat de Groq par Nvidia pour 20 milliards de dollars est une reconnaissance tacite de cette vulnérabilité architecturale. Plutôt que de s'appuyer uniquement sur sa propre feuille de route, comme le nouveau Blackwell B200 qui booste les performances d'inférence, l'entreprise a payé une prime élevée pour acquérir une technologie concurrente. Pour le plus grand vendeur de puces IA au monde, il s'agissait d'une mesure défensive pour combler une lacune potentielle dans son portefeuille.

### L'offensive d'OpenAI
En revanche, l'accord d'OpenAI est une stratégie offensive claire. Le plus grand fournisseur de modèles d'IA au monde ne se contente pas de diversifier ses fournisseurs ; il cultive activement un challenger pour Nvidia. L'accord comprend plus de 20 milliards de dollars d'achats de puces, des bons de souscription pour une participation allant jusqu'à 10 % dans Cerebras, et un investissement d'un milliard de dollars pour aider à construire les centres de données nécessaires pour héberger le nouveau matériel.

Cette initiative rappelle la stratégie historique d'Apple consistant à s'intégrer profondément et finalement à contrôler sa chaîne d'approvisionnement en puces. En s'assurant un fournisseur d'inférence haute performance dédié, OpenAI réduit sa dépendance à Nvidia et gagne un levier sur le coût de fonctionnement de ses modèles à grande échelle. La société développerait également ses propres puces ASIC personnalisées avec son partenaire Broadcom, signalant une poussée multidirectionnelle vers l'indépendance informatique.

Pour les investisseurs, l'IPO de Cerebras présente un tableau complexe. La société, qui sera cotée sous le symbole « CBRS », vise désormais une valorisation de 35 milliards de dollars, un bond significatif par rapport à sa valorisation de 23 milliards de dollars en février 2026 et de 8,1 milliards de dollars en septembre 2025. Cette seconde tentative d'IPO intervient après le retrait d'un dossier en 2024 en raison de préoccupations de sécurité nationale concernant son client le plus important de l'époque, le fonds G42 basé aux Émirats arabes unis.

Bien que le remplacement de G42 par OpenAI comme client de référence améliore la qualité des revenus, cela ne résout pas le problème sous-jacent de la concentration de la clientèle. Les investisseurs de l'IPO parient sur le fait que la demande d'OpenAI sera durable et que Cerebras pourra diversifier avec succès sa base de clients avant que les puces internes d'OpenAI ne deviennent une alternative viable. La question à 35 milliards de dollars est de savoir si cet optimisme est déjà intégré dans les cours.

Cet article est uniquement à titre informatif et ne constitue pas un conseil en investissement.