Le nouvel API de Zhipu AI atteint 400 tokens par seconde dans la course à la vitesse

Zhipu AI intensifie la course à la vitesse dans l'intelligence artificielle d'entreprise en lançant un nouvel API pour son modèle GLM-5.1 qui atteint 400 tokens par seconde, un nouveau record pour les API de grands modèles de langage commerciaux. Cette initiative défie les acteurs établis et souligne l'accent croissant du marché sur la performance d'inférence comme facteur clé de l'adoption par les entreprises.

« La version haute vitesse GLM-5.1 est conçue pour des scénarios ayant des exigences extrêmement élevées en matière de latence de réponse, tels que la programmation IA, l'interaction en temps réel et la prise de décision commerciale », a annoncé la société dans un communiqué.

L'API GLM-5.1-highspeed est initialement disponible pour certains clients entreprises sur la plateforme Maas de Zhipu. La vitesse de sortie de 400 tokens/seconde vise directement les cas d'utilisation d'entreprise à faible latence — comme les applications vocales en temps réel et la logique métier automatisée — qui étaient difficiles à servir avec des modèles plus lents et plus conversationnels.

Cette décision met sous pression les concurrents mondiaux en établissant une nouvelle référence de performance pour l'inférence basée sur API. Alors que des sociétés comme Kore.ai et Cerebras repoussent également les limites de la vitesse et de l'efficacité, l'accent se déplace de la pure capacité du modèle vers une performance de niveau production, affectant des milliards de dépenses informatiques des entreprises dans l'infrastructure IA.

Un secteur encombré qui se bat pour des millisecondes

L'annonce de Zhipu ne survient pas dans un vide. Toute l'industrie de l'IA est engagée dans une bataille féroce pour réduire la latence. Alors que les 400 tokens/seconde de Zhipu établissent un record pour un API commercial, d'autres entreprises affichent des vitesses encore plus élevées avec des configurations spécialisées. La startup de puces Cerebras a récemment annoncé que sa plateforme fait tourner le modèle Kimi K2.6 d'un trillion de paramètres à 981 tokens par seconde, soit près de sept fois plus vite que les clouds basés sur GPU. Cependant, cela repose sur l'unique wafer-scale engine de Cerebras, une architecture matérielle spécialisée non accessible via un API général.

La concurrence s'étend au-delà de la pure performance matérielle. Le fournisseur de plateforme d'IA d'entreprise Kore.ai a récemment lancé sa plateforme Artemis, conçue pour permettre aux entreprises de construire et de gouverner des agents IA. Ce lancement souligne que si la vitesse est critique, des facteurs tels que la gouvernance, la sécurité et la neutralité vis-à-vis des fournisseurs sont tout aussi importants pour l'adoption dans des secteurs réglementés comme la finance et la santé. Cela place la référence de vitesse de Zhipu dans un contexte plus large, concurrençant les écosystèmes de géants comme Microsoft, Google et Salesforce.

De la puissance brute à l'aptitude pour l'entreprise

La quête d'une génération de tokens plus rapide est dictée par un besoin commercial clair. Pour que l'IA devienne intégrante aux processus métier de base, elle doit fonctionner en temps réel. Les cas d'utilisation comme la transcription vocale en temps réel, l'analyse de données interactive pour les traders financiers ou les recommandations dynamiques de commerce électronique nécessitent des réponses quasi instantanées que de nombreux modèles actuels ne peuvent fournir. Zhipu cible directement ce segment de marché, où quelques centaines de millisecondes de latence peuvent rendre un produit non viable.

Pour les investisseurs, cette tendance signale une maturation du marché de l'IA. Alors que la taille des modèles et les scores de référence ont historiquement fait la une, c'est dans la capacité à servir ces modèles rapidement et de manière rentable que la valeur est capturée. L'offre de Zhipu pourrait abaisser la barrière pour les entreprises souhaitant déployer une IA plus sophistiquée, capturant potentiellement des parts de marché aux acteurs historiques plus lents. Le succès des plateformes de Zhipu, Kore.ai et d'autres dépendra de leur capacité à fournir non seulement un modèle rapide, mais une solution d'entreprise complète, fiable et sécurisée.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.