Les 744 milliards de paramètres de GLM-5 privilégient l'ingénierie aux benchmarks
La société chinoise d'IA Zhipu a détaillé son modèle GLM-5 de 744 milliards de paramètres, marquant une évolution significative de la poursuite des métriques de classement vers l'obtention d'une "intelligence de niveau ingénierie". Le modèle a été entraîné sur 28,5 billions de tokens et se concentre sur l'exécution autonome de tâches complexes d'ingénierie logicielle en plusieurs étapes. Cette approche, que Zhipu appelle "ingénierie agentique", permet au modèle de planifier, d'écrire et de déboguer indépendamment des systèmes entiers à partir d'un objectif de haut niveau. Lors de tests comme le benchmark Vending-Bench 2, qui simule la gestion d'une entreprise pendant un an, GLM-5 s'est classé premier parmi les modèles open-source, démontrant sa capacité de prise de décision stratégique à long terme.
L'innovation de l'attention clairsemée réduit la charge de calcul jusqu'à 2 fois
Au cœur de l'efficacité de GLM-5 se trouve un nouveau mécanisme d'attention clairsemée DeepSeek (DSA). Contrairement aux systèmes d'attention traditionnels où la complexité computationnelle augmente quadratiquement avec la longueur d'entrée, DSA identifie et traite dynamiquement uniquement les tokens de données les plus critiques. Cette innovation réduit la charge de travail de calcul de l'attention de 1,5 à 2 fois dans sa fenêtre contextuelle de 200 000 tokens. De manière cruciale, Zhipu a atteint cette efficacité sans la dégradation de performance typique associée aux autres méthodes d'attention clairsemée. Le résultat est une architecture de modèle qui peut gérer des contextes plus larges et offrir des performances plus élevées sur le même matériel, un avantage critique pour développer une IA rentable dans un environnement à contraintes de calcul.
Le support natif des GPU chinois réduit les coûts de déploiement de 50%
L'aspect le plus stratégiquement significatif de GLM-5 est son optimisation native au niveau du système pour les GPU domestiques chinois. Le modèle est entièrement adapté au matériel de Huawei Ascend, Moore Threads, Hygon, Cambricon et autres. Cela va au-delà de la simple compatibilité, impliquant une restructuration complète de la pile, de la planification du cache KV aux stratégies de traitement parallèle distribué. Cette co-conception logicielle-matérielle est très efficace, permettant à un seul nœud de calcul domestique d'égaler les performances d'un cluster utilisant deux GPU internationaux grand public. Pour le traitement de séquences de données longues, cette optimisation approfondie réduit les coûts de déploiement d'un substantiel 50%, défiant directement la domination du marché des fournisseurs de matériel étrangers et accélérant la voie de la Chine vers un écosystème d'IA entièrement indépendant.