Le GLM-5 de Zhipu AI réduit les coûts de GPU de 50% sur les puces domestiques

Edgen Stock·Feb 22 2026, 11:38

Partager sur

Partager sur

Copier le lien

Points clés

Zhipu AI a publié les spécifications techniques de son grand modèle linguistique GLM-5, signalant un changement stratégique dans le développement de l'IA en Chine. Le modèle privilégie l'efficacité de l'ingénierie et l'intégration profonde avec le matériel domestique plutôt que la course aux scores de référence, créant une pile technologique autonome.

Intelligence de niveau ingénierie: Le modèle à 744 milliards de paramètres est conçu pour des tâches complexes et de longue durée, allant au-delà de la simple génération de code pour l'ingénierie et la planification de systèmes autonomes.
Efficacité par l'innovation: Un nouveau mécanisme d'attention clairsemée DeepSeek (DSA) réduit le calcul de l'attention de 1,5 à 2 fois pour les contextes longs sans sacrifier les performances, rendant l'IA à grande échelle plus économiquement viable.
Intégration du matériel domestique: GLM-5 est nativement optimisé pour une suite de GPU chinois, y compris Huawei Ascend. Cette co-optimisation permet d'atteindre des performances comparables à deux GPU internationaux sur un seul nœud domestique et réduit les coûts de déploiement de 50% pour les tâches à longue séquence.

Les 744 milliards de paramètres de GLM-5 privilégient l'ingénierie aux benchmarks

La société chinoise d'IA Zhipu a détaillé son modèle GLM-5 de 744 milliards de paramètres, marquant une évolution significative de la poursuite des métriques de classement vers l'obtention d'une "intelligence de niveau ingénierie". Le modèle a été entraîné sur 28,5 billions de tokens et se concentre sur l'exécution autonome de tâches complexes d'ingénierie logicielle en plusieurs étapes. Cette approche, que Zhipu appelle "ingénierie agentique", permet au modèle de planifier, d'écrire et de déboguer indépendamment des systèmes entiers à partir d'un objectif de haut niveau. Lors de tests comme le benchmark Vending-Bench 2, qui simule la gestion d'une entreprise pendant un an, GLM-5 s'est classé premier parmi les modèles open-source, démontrant sa capacité de prise de décision stratégique à long terme.

L'innovation de l'attention clairsemée réduit la charge de calcul jusqu'à 2 fois

Au cœur de l'efficacité de GLM-5 se trouve un nouveau mécanisme d'attention clairsemée DeepSeek (DSA). Contrairement aux systèmes d'attention traditionnels où la complexité computationnelle augmente quadratiquement avec la longueur d'entrée, DSA identifie et traite dynamiquement uniquement les tokens de données les plus critiques. Cette innovation réduit la charge de travail de calcul de l'attention de 1,5 à 2 fois dans sa fenêtre contextuelle de 200 000 tokens. De manière cruciale, Zhipu a atteint cette efficacité sans la dégradation de performance typique associée aux autres méthodes d'attention clairsemée. Le résultat est une architecture de modèle qui peut gérer des contextes plus larges et offrir des performances plus élevées sur le même matériel, un avantage critique pour développer une IA rentable dans un environnement à contraintes de calcul.

Le support natif des GPU chinois réduit les coûts de déploiement de 50%

L'aspect le plus stratégiquement significatif de GLM-5 est son optimisation native au niveau du système pour les GPU domestiques chinois. Le modèle est entièrement adapté au matériel de Huawei Ascend, Moore Threads, Hygon, Cambricon et autres. Cela va au-delà de la simple compatibilité, impliquant une restructuration complète de la pile, de la planification du cache KV aux stratégies de traitement parallèle distribué. Cette co-conception logicielle-matérielle est très efficace, permettant à un seul nœud de calcul domestique d'égaler les performances d'un cluster utilisant deux GPU internationaux grand public. Pour le traitement de séquences de données longues, cette optimisation approfondie réduit les coûts de déploiement d'un substantiel 50%, défiant directement la domination du marché des fournisseurs de matériel étrangers et accélérant la voie de la Chine vers un écosystème d'IA entièrement indépendant.