Les modèles d'IA chinois gagnent des parts de routage alors que leurs coûts sous-cotent de 95 % ceux des États-Unis

Les modèles d'IA chinois captent une part croissante du trafic de routage d'inférence alors que leurs coûts d'API ne représentent qu'une fraction de ceux de leurs concurrents américains, remodelant l'économie du marché de l'IA.

Les modèles d'IA chinois de DeepSeek, du Qwen d'Alibaba et de ByteDance remportent une part croissante des requêtes de routage de modèles, les développeurs redirigeant les charges de travail non sensibles vers le fournisseur d'inférence le moins cher, menaçant le pouvoir de fixation des prix d'OpenAI, d'Anthropic et de Google.

Cette tendance a été mise en lumière dans un rapport du 8 juin de CNBC par Deirdre Bosa, qui a examiné comment les plateformes de routage de modèles orientent de plus en plus le trafic vers les fournisseurs chinois alors que l'écart de coût se creuse dans l'ensemble du secteur.

La tarification de l'API de DeepSeek pour son modèle V3 est d'environ 0,14 $ par million de tokens d'entrée, contre 2,50 $ pour le GPT-4o d'OpenAI — soit une remise de 94 %. Les modèles Qwen 2.5 d'Alibaba et Doubao de ByteDance offrent des avantages de prix similaires, ce qui en fait le choix par défaut pour les plateformes de routage qui optimisent le coût plutôt que la capacité brute.

Ce changement menace les modèles de revenus des leaders américains de l'IA, qui ont bâti leurs activités sur une tarification premium des API. OpenAI à lui seul devrait générer plus de 10 milliards de dollars de revenus cette année, dont une grande partie provient de l'accès aux API. Si les plateformes de routage continuent de détourner le trafic vers les fournisseurs chinois, les entreprises américaines pourraient être contraintes de baisser leurs prix, comprimant les marges dans l'ensemble du secteur.

Comment le routage de modèles remodèle le marché de l'inférence

Les plateformes de routage de modèles telles qu'OpenRouter et Together AI évaluent automatiquement les requêtes entrantes et les dirigent vers le modèle offrant le meilleur équilibre entre capacité et coût. Pour des tâches comme la synthèse, la traduction et la génération de code de base — qui représentent la majorité du volume d'inférence — les modèles chinois offrent souvent une qualité comparable à une fraction du prix. Cela crée un avantage structurel pour les fournisseurs chinois que les laboratoires américains ne peuvent pas facilement contrer sans réduire leurs propres prix.

Qui gagne, qui perd

Les plus grands bénéficiaires sont les fournisseurs d'infrastructure cloud qui soutiennent le routage multi-modèles, notamment AWS, Google Cloud et Alibaba Cloud, qui perçoivent des revenus de calcul quel que soit le modèle qui remporte la décision de routage. Nvidia bénéficie également de l'augmentation de la demande totale de calcul — chaque requête d'inférence nécessite toujours des cycles GPU, et les plateformes de routage génèrent une utilisation globale plus élevée.

Les plus grands perdants sont les laboratoires d'IA américains qui ont investi des milliards dans la formation de modèles de pointe mais qui sont désormais confrontés à une guerre des prix qu'ils pourraient avoir du mal à gagner. OpenAI a levé plus de 20 milliards de dollars de financement, dont une grande partie a été dépensée en calcul de formation et en talents. Si les plateformes de routage rendent l'inférence banale, l'économie qui justifiait ces investissements commence à s'effondrer.

Pour les investisseurs, la question clé est de savoir si les entreprises américaines d'IA peuvent maintenir leur pouvoir de fixation des prix. OpenAI, Anthropic et DeepMind de Google se sont appuyés sur une tarification premium des API pour financer des sessions d'entraînement massives. Le modèle V3 de DeepSeek a été entraîné pour environ 6 millions de dollars en coûts de calcul, contre des centaines de millions dépensés pour des modèles américains comparables — une structure de coûts qui permet aux fournisseurs chinois de sous-coter les prix américains indéfiniment. Les analystes de Morgan Stanley ont identifié la tarification de l'inférence comme un risque clé pour les valorisations des infrastructures d'IA, notant qu'une guerre des prix prolongée pourrait réduire les rendements projetés sur les 200 milliards de dollars de dépenses d'investissement (CapEx) dans les centres de données d'IA prévues d'ici 2027.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.