La société chinoise d'IA DeepSeek a publié une mise à jour majeure de sa base de code DeepGEMM, introduisant une nouvelle architecture nommée « Mega MoE » conçue pour réduire les coûts de calcul élevés associés aux modèles Mixture of Experts (MoE). La mise à jour vise à résoudre un problème d'efficacité critique dans l'IA en fusionnant plusieurs étapes complexes en une seule opération GPU, ce qui pourrait donner à DeepSeek un avantage financier significatif dans l'entraînement et le déploiement de ses modèles à grande échelle.
« DeepGEMM est une bibliothèque unifiée de noyaux Tensor Core haute performance, intégrant des primitives de calcul clés pour les modèles de langage modernes », a écrit l'équipe d'infrastructure de DeepSeek dans la description du projet. La bibliothèque inclut désormais « MoE fusionné avec chevauchement de communication (Mega MoE) » comme composant central, signalant une focalisation stratégique sur l'efficacité extrême.
Les modèles MoE traditionnels, bien que puissants, sont notoirement inefficaces. Ils traitent les informations en acheminant différents « jetons » de données vers des sous-réseaux « experts » spécialisés, mais cela implique une séquence fragmentée d'opérations distinctes sur le GPU — répartition des jetons, deux transformations linéaires, une fonction d'activation et combinaison des résultats. Mega MoE remplace tout ce flux de travail décousu par un seul « méga-noyau » unifié qui exécute l'ensemble du processus en une seule fois. Surtout, il permet également à la communication de données entre les GPU de se produire en même temps que le calcul, éliminant ainsi le temps d'inactivité qui pèse sur les configurations multi-GPU actuelles.
Cette quête d'efficacité est cruciale dans une industrie dominée par les dépenses d'investissement massives requises pour l'entraînement de l'IA. En abaissant potentiellement le coût de fonctionnement des modèles MoE, qui sont utilisés par des laboratoires de premier plan comme Google et Mistral AI, DeepSeek pourrait acquérir un avantage concurrentiel. La mise à jour donne également des indices sur la stratégie matérielle de l'entreprise, les analystes suggérant que les techniques avancées sont optimisées pour les derniers accélérateurs d'IA de la série B de Nvidia, contrecarrant les rumeurs selon lesquelles l'entreprise s'appuyait uniquement sur du matériel domestique.
Fusionner les noyaux pour vaincre l'inefficacité
L'innovation au cœur de Mega MoE est sa rupture avec l'exécution conventionnelle, étape par étape, des couches MoE. Là où les méthodes précédentes nécessitaient le lancement de plusieurs noyaux — de petits programmes qui s'exécutent sur le GPU — pour chaque étape du processus, Mega MoE les consolide. Considérez cela comme la transformation d'une ligne d'assemblage lente à plusieurs postes en un seul tapis roulant fonctionnant en continu.
Cette approche « fusionnée » s'attaque directement au problème de la sous-utilisation du GPU. Dans un entraînement MoE standard sur plusieurs GPU, un temps considérable est perdu pendant que les processeurs attendent que les données soient transférées entre eux. En concevant le noyau pour faire chevaucher cette communication de données avec le calcul actif sur les Tensor Cores, DeepSeek garantit que le matériel coûteux effectue un travail utile pendant un pourcentage de temps beaucoup plus élevé. Le résultat est une augmentation directe du débit, en particulier dans les grandes configurations multi-nœuds requises pour l'entraînement des modèles de pointe.
Repousser les limites avec le FP4 et le matériel futur
Au-delà du noyau fusionné, la mise à jour de DeepSeek révèle une volonté agressive de repousser les limites des économies de calcul. L'équipe expérimente des formats de données de moindre précision, notamment un indexeur FP4 pour les logits MQA. L'utilisation de nombres à virgule flottante 4 bits, au lieu des formats 8 bits ou 16 bits plus courants, peut réduire considérablement l'utilisation de la mémoire et augmenter la vitesse de calcul, bien que cela nécessite une ingénierie sophistiquée pour maintenir la précision du modèle.
Cette focalisation sur les techniques d'optimisation de pointe a alimenté les spéculations sur le matériel sous-jacent de DeepSeek. Selon l'analyse de l'utilisateur X St4r, les méthodes spécifiques implémentées dans Mega MoE sont mieux adaptées aux accélérateurs d'IA les plus avancés de Nvidia, probablement l'architecture Blackwell. Cela suggère qu'en dépit des tensions commerciales géopolitiques, DeepSeek continue d'utiliser des puces haut de gamme du leader du marché, un facteur clé pour les investisseurs qui suivent le paysage concurrentiel face à d'autres acteurs majeurs comme OpenAI, Anthropic et leurs fournisseurs de matériel comme AMD et Intel. Bien que DeepSeek ait noté que le projet est toujours en développement et que les données de performance sont à venir, cette initiative signale une direction stratégique claire : rendre l'IA de pointe plus viable économiquement.
Pour les investisseurs, l'accent mis par DeepSeek sur l'optimisation des infrastructures est un différenciateur clé. Dans un marché où la principale barrière à l'entrée est le coût immense de l'entraînement et de l'inférence, toute entreprise capable d'abaisser fondamentalement cette courbe de coûts gagne un avantage concurrentiel puissant. Cette mise à jour met la pression sur les autres laboratoires d'IA et fournisseurs de cloud pour atteindre ce niveau d'efficacité. Le succès de Mega MoE pourrait non seulement améliorer l'économie unitaire des propres modèles de DeepSeek, mais aussi influencer la conception des logiciels et du matériel d'IA de nouvelle génération dans toute l'industrie.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.