Le laboratoire Tongyi d'Alibaba a dévoilé un nouvel algorithme, FIPO (Future-KL Influenced Policy Optimization), visant à résoudre le problème de « stagnation de la longueur d'inférence » qui a mis au défi les modèles d'apprentissage par renforcement pur. L'équipe d'informatique intelligente à l'origine du projet affirme que son approche a atteint des performances supérieures à l'échelle 32B, surpassant des concurrents établis.
« Cette percée lève un goulot d'étranglement critique dans l'entraînement de grands modèles pour des tâches de raisonnement complexes et multi-étapes », a déclaré un porte-parole du laboratoire Tongyi d'Alibaba. « En récompensant les jetons les plus influents pour les résultats futurs, nous pouvons guider le modèle pour générer des réponses plus longues, plus cohérentes et plus précises. »
Le cœur de FIPO est son mécanisme « Future-KL ». Dans l'apprentissage par renforcement pur (Pure RL), les modèles peuvent s'enfermer dans une boucle, générant des sorties répétitives ou à courte vue, un problème connu sous le nom de « stagnation de la longueur d'inférence ». FIPO s'attaque à ce problème en identifiant et en récompensant les « jetons clés » qui ont une grande influence sur le texte généré futur du modèle. Selon l'annonce de l'équipe, cette méthode a permis à leur modèle de 32 milliards de paramètres de surpasser à la fois o1-mini et DeepSeek-Zero-MATH, deux autres grands modèles de langage connus pour leurs capacités de raisonnement mathématique.
Ce développement pourrait considérablement améliorer les performances de la famille de modèles Qwen d'Alibaba, renforçant sa position face à des concurrents mondiaux comme Nvidia et des rivaux nationaux. Pour les investisseurs, la capacité à surmonter les limitations de l'entraînement en RL pur pourrait se traduire par des produits d'IA plus puissants et efficaces, impactant potentiellement les revenus du cloud computing d'Alibaba et sa stratégie d'IA à long terme. La société n'a pas divulgué les benchmarks spécifiques ni le coût de la session d'entraînement.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.