Tencent lance le modèle Hy3 de 295 milliards de paramètres pour optimiser l'efficacité des agents IA

Tencent Holdings Ltd. a dévoilé le 23 avril son modèle Hy3 preview, un système d'intelligence artificielle open source doté de 295 milliards de paramètres, signalant un pivot stratégique vers l'efficacité et l'application pratique plutôt que la course à l'échelle pure. Ce lancement représente un recalibrage significatif pour le géant technologique chinois, se concentrant sur la création d'un modèle rentable pour des tâches complexes et réelles alors que la course nationale à l'IA s'intensifie.

« L'aperçu Hy3 est la première étape de la reconstruction du grand modèle Hunyuan », a déclaré Yao Shunyuan, scientifique en chef de l'IA chez Tencent et responsable de la division des grands modèles de langage, dans un communiqué. « Nous espérons que cette mise en open source et cette version permettront d'obtenir des retours réels de la part de la communauté open source et des utilisateurs afin d'aider à améliorer l'aspect pratique de la version officielle de Hy3. »

Le nouveau modèle utilise une architecture Mixture-of-Experts (MoE) avec 295 milliards de paramètres au total, mais n'en active que 21 milliards pour une tâche donnée, ainsi qu'une fenêtre contextuelle de 256K. Cette conception vise à équilibrer des capacités haut de gamme avec des coûts opérationnels réduits. Des tests internes montrent que le modèle permet une réduction de 54 % de la latence du premier jeton (first-token latency) et une diminution de 47 % de la durée de bout en bout sur des produits internes tels que les agents IA CodeBuddy et WorkBuddy, avec un taux de réussite supérieur à 99,99 %.

Cette initiative suggère que Tencent parie qu'une ingénierie supérieure et une intégration profonde dans son vaste écosystème de produits peuvent offrir un avantage concurrentiel, même sans posséder le plus grand modèle de l'industrie. Cela intervient alors que Tencent et son rival Alibaba Group seraient en pourparlers pour investir dans DeepSeek, une startup d'IA visant une valorisation de plus de 20 milliards de dollars, indiquant une stratégie double consistant à construire en interne tout en investissant dans des technologies tierces prometteuses.

Un virage stratégique vers l'efficacité

La sortie de Hy3 marque un changement clair dans la philosophie d'IA de Tencent. L'entreprise considère désormais la tranche des 300 milliards de paramètres comme un point d'équilibre optimal, où les capacités de base telles que le raisonnement complexe et la compréhension de contextes longs sont pleinement débloquées, et où les augmentations de taille ultérieures offrent des rendements décroissants. Cela va à l'encontre de l'accent mis précédemment par l'industrie sur des nombres de paramètres toujours plus grands comme mesure principale de la puissance d'un modèle.

Ce recalibrage fait suite à une réorganisation des équipes d'IA de Tencent et à la mise en place d'une nouvelle infrastructure en février. L'accent est désormais mis sur les « agents IA » capables d'exécuter des flux de travail complexes, un concept que Tang Daosheng, PDG de Tencent Cloud and Smart Industry, a qualifié de prochain paradigme. En rendant Hy3 preview open source, Tencent vise à accélérer son évolution en recueillant des données d'utilisation réelles, affinant ainsi le modèle pour sa sortie formelle.

Le paysage concurrentiel

L'approche pragmatique de Tencent s'inscrit dans un contexte de concurrence intense et de contraintes de ressources. Le coût élevé de l'entraînement et de la mise à l'échelle des modèles est aggravé par les restrictions d'exportation américaines sur les semi-conducteurs avancés de sociétés comme Nvidia, forçant les entreprises chinoises à évaluer des alternatives nationales auprès de fournisseurs tels que Huawei.

Dans cet environnement, l'efficacité est primordiale. DeepSeek, la startup que Tencent courtiserait, a bâti sa réputation en développant des modèles puissants avec une fraction du budget utilisé par ses homologues occidentaux. La recherche par Tencent d'une participation dans DeepSeek, tout en lançant simultanément son propre modèle Hy3 axé sur l'efficacité, souligne une stratégie à deux volets : développer des modèles internes puissants et intégrés pour son écosystème tout en utilisant des investissements pour s'exposer à d'autres innovateurs et se prémunir contre les impasses technologiques. Le succès de cette double approche sera critique pour naviguer sur le marché de l'IA particulièrement difficile de la Chine.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.