L'inférence IA transforme la demande de mémoire, créant deux nouveaux marchés de croissance

Le passage de l'entraînement à l'inférence de l'IA transforme l'industrie de la mémoire bien au-delà de la HBM, le déchargement du cache KV et les charges de travail IA agentiques créant deux marchés de croissance distincts pour les SSD d'entreprise et la LPDRAM.

« Le système mémoire de l'IA va complètement transformer les systèmes de stockage », a déclaré Jensen Huang, fondateur et directeur général de Nvidia, lors de la conférence GTC Taipei en juin 2026, qualifiant l'infrastructure mémoire de l'un des éléments les plus complexes de la pile IA.

Ce changement structurel est porté par deux forces. Premièrement, les charges de travail d'inférence génèrent une explosion de la demande de cache KV — la mémoire dynamique qui stocke les vecteurs clé-valeur durant la phase de pré-remplissage afin d'éviter des calculs redondants lors du décodage. Selon les données de Nvidia, le nombre moyen de tokens de sortie par requête a plus que quintuplé chaque année depuis le second semestre 2024, atteignant environ 30 000 à 40 000 tokens. Lorsque la capacité HBM du GPU est saturée, les systèmes doivent supprimer le cache et le recalculer, ce qui augmente la latence et le coût total de possession.

Pour résoudre ce problème, Nvidia a publié en mars 2025 le logiciel Dynamo, qui décharge le cache KV le moins fréquemment sollicité vers des niveaux de mémoire moins coûteux, notamment la DRAM du CPU et les SSD. En janvier 2026, l'entreprise a lancé la plateforme CMX Context Memory Storage, gérée par le DPU BlueField-4. Chaque rack utilise 64 DPU BlueField-4 pour gérer environ 9 600 téraoctets de capacité, insérant une nouvelle couche de stockage contextuel au niveau du pod « G3.5 » entre le SSD local et le stockage partagé. Lors du Computex 2026, le modèle structurel du DPU BlueField-4 de Nvidia contenait déjà des échantillons de SSD SK Hynix PEB210 E1.S et PE9010 M.2, signalant que le sous-marché des baies SSD passe du concept au matériel.

L'IA agentique transforme la demande de mémoire CPU

Le deuxième moteur est l'IA agentique, où les modèles doivent activement planifier, appeler des outils, prendre des décisions et exécuter des boucles d'agents — autant de tâches gérées par le CPU. Huang a déclaré que les agents évoluent dans un monde à l'échelle nanoseconde où une latence ultra-faible est primordiale, renforçant l'importance de l'architecture CPU.

TrendForce estime qu'avec le déploiement à grande échelle de l'IA agentique, le ratio de charge de travail CPU/GPU passera du traditionnel 1:4 ou 1:8 à environ 1:1, générant une demande incrémentale significative pour la mémoire attachée au CPU. Le CPU Vera de Nvidia, lancé en 2026 pour les charges de travail agentiques, prend en charge jusqu'à 1,5 téraoctet de LPDDR5X — soit trois fois la capacité de son prédécesseur Grace.

Cependant, TrendForce a rapporté que Nvidia a réduit de moitié la capacité mémoire SOCAMM sur le module superchip Vera Rubin de nouvelle génération, citant une capacité LPDRAM insuffisante allouée à Nvidia dans les plans de production préliminaires des fournisseurs pour 2027. Cet ajustement reflète des contraintes d'offre à court terme plutôt qu'une réduction de la demande globale de mémoire de Nvidia.

Le marché plus large des CPU connaît également son propre renouvellement générationnel pour l'IA agentique. Intel a lancé le Xeon 6+ (Clearwater Forest), AMD a publié l'EPYC Venice, Arm a présenté le CPU Arm AGI, et l'AmpereOne MX d'Ampere devrait entrer en production cette année. La concurrence multi-fournisseurs accélère la croissance de la demande de mémoire CPU dans l'ensemble du secteur.

Implications pour l'investissement

Pour les investisseurs dans la mémoire, ces deux tendances pointent vers des marchés de croissance au-delà de la HBM. Les SSD d'entreprise gagnent un nouveau vecteur de demande grâce au déchargement du cache KV, alors que Nvidia, Google et d'autres fournisseurs de plateformes déploient des architectures de baies SSD. La LPDRAM connaît une expansion structurelle de la demande du côté CPU, l'IA agentique poussant les architectures serveur vers des configurations CPU-GPU équilibrées.

La contrainte d'approvisionnement signalée pour le Vera Rubin de Nvidia suggère que la capacité LPDRAM à court terme pourrait être tendue, bénéficiant aux fabricants de mémoire établis tels que SK Hynix, Samsung Electronics et Micron Technology, qui contrôlent l'essentiel de la production de LPDRAM. Pour les fabricants de SSD, l'émergence de niveaux de stockage contextuel dédiés dans l'infrastructure IA représente un marché adressable inexistant il y a deux ans.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.