L'inférence pilotera 70% de la demande en GPU d'ici 2026
Le marché du calcul IA connaît une transformation structurelle, créant un rôle distinct pour les réseaux d'infrastructure physique décentralisés (DePIN). Alors que l'entraînement des modèles d'IA de pointe reste concentré dans les centres de données hyperscale, l'industrie a atteint un « point de bascule de l'inférence », selon Nökkvi Dan Ellidason, PDG d'Ovia Systems. Alors qu'en 2024, l'entraînement dominait l'utilisation des GPU, d'ici 2026, on estime que 70% de la demande sera générée par l'inférence, les agents IA et les charges de travail de prédiction. Ce pivot transforme le calcul IA d'un coût de recherche massif et ponctuel en une dépense utilitaire continue et évolutive, créant une ouverture pour des solutions de traitement plus économiques.
Les réseaux décentralisés offrent des charges de travail IA rentables
L'entraînement d'IA de pointe nécessite des milliers de GPU fonctionnant en synchronisation parfaite et à faible latence – une configuration uniquement possible dans des installations centralisées étroitement intégrées. Meta, par exemple, a utilisé un cluster de plus de 100 000 GPU Nvidia H100 pour entraîner son modèle Llama 4. Ellidason compare cela à la construction d'un gratte-ciel où les ouvriers se passent des briques à la main sur le même échafaudage. Tenter cela sur un réseau décentralisé reviendrait à envoyer chaque brique individuellement, ce qui serait très inefficace. Cependant, les charges de travail d'inférence sont différentes. Elles peuvent être décomposées en tâches plus petites et indépendantes, ce qui les rend idéales pour les réseaux distribués.
L'inférence est l'activité à gros volume, et elle évolue avec chaque modèle déployé et chaque boucle d'agent. C'est là que le coût, l'élasticité et la répartition géographique importent plus que des interconnexions parfaites.
— Evgeny Ponomarev, co-fondateur de Fluence
Cela rend les réseaux décentralisés utilisant des GPU grand public mieux adaptés aux tâches d'IA de production qui privilégient le débit et la flexibilité. Selon Bob Miles, PDG de Salad Technologies, ces réseaux excellent en termes de rapport prix-performance pour les charges de travail sensibles aux coûts, telles que la découverte de médicaments par l'IA, le traitement de données à grande échelle et la génération d'images. De plus, un réseau distribué mondialement peut réduire la latence pour les utilisateurs finaux en traitant les requêtes plus près de leur emplacement géographique, évitant ainsi de multiples sauts vers un centre de données éloigné.
Les GPU grand public émergent comme une couche IA complémentaire
Les réseaux de GPU décentralisés ne remplacent pas les hyperscalers, mais se taillent un rôle de couche complémentaire vitale dans la pile technologique de l'IA. À mesure que les modèles open source deviennent plus efficaces et que le matériel grand public comme les Nvidia RTX 4090 ou 5090 devient plus puissant, un éventail plus large de tâches IA peut être exécuté en dehors des centres de données centralisés. Cela permet aux utilisateurs particuliers et aux petits opérateurs de contribuer leurs ressources GPU inactives au réseau.
Cette dynamique positionne les plateformes décentralisées pour absorber une part croissante du marché de l'IA axé sur l'inférence et d'autres tâches parallélisables. Elles offrent une alternative rentable et géographiquement distribuée pour un segment significatif et en expansion du calcul IA, démocratisant efficacement l'accès à la puissance de traitement au-delà de la poignée de géants technologiques qui dominent l'entraînement de modèles à grande échelle.