MiniMax a rendu open source son modèle M2.7, la première IA agentique de l'industrie à participer activement à son propre cycle de développement et à l'améliorer, atteignant des performances comparables aux principaux modèles propriétaires.
MiniMax a officiellement rendu open source MiniMax M2.7, son modèle Mixture-of-Experts (MoE) le plus performant, en rendant les poids publics sur Hugging Face. Le modèle, qui a d'abord participé à son propre développement pour obtenir un gain de performance de 30 %, affiche un score de 56,22 % sur le benchmark d'ingénierie logicielle SWE-Pro, égalant GPT-5.3-Codex et signalant un nouveau front concurrentiel sur le marché de l'IA en open source.
"Pour tester les limites de l'amélioration autonome, MiniMax M2.7 a été chargé d'optimiser les performances de programmation d'un modèle sur un échafaudage interne", a déclaré l'entreprise dans un article de blog technique. "Il a fonctionné de manière entièrement autonome, exécutant une boucle itérative d'analyse des trajectoires d'échec → planification des changements → modification du code de l'échafaudage → exécution des évaluations → comparaison des résultats → décision de conserver ou d'annuler les changements pendant plus de 100 cycles."
Ce processus d'auto-évolution a entraîné une amélioration des performances de 30 % lors des évaluations internes. Sur les benchmarks publics, M2.7 atteint des résultats de pointe pour les modèles open source, avec un score de 57,0 % sur Terminal Bench 2 et 55,6 % sur le test de génération de code au niveau du dépôt VIBE-Pro, égalant presque l'Opus 4.6 d'Anthropic. Le modèle a été développé en partenariat avec des fabricants de matériel, notamment Nvidia, Huawei Ascend et Moore Threads, garantissant une large compatibilité initiale.
Cette sortie remet en question l'écart de performance entre les modèles open source et les modèles propriétaires de firmes comme OpenAI et Anthropic. En rendant open source un modèle capable de s'auto-améliorer et d'afficher des performances élevées sur des tâches d'ingénierie complexes et réelles, MiniMax fait pression sur les acteurs établis et fournit un outil puissant et librement accessible aux développeurs, ce qui pourrait détourner l'approvisionnement en IA des entreprises des systèmes coûteux basés sur des API.
Une nouvelle architecture pour le travail agentique
MiniMax M2.7 fait partie de la série M2 de modèles Mixture-of-Experts (MoE) de l'entreprise. Cette architecture est plus efficace que les modèles denses, car seul un sous-ensemble de paramètres est activé pendant l'inférence, ce qui le rend plus rapide et moins coûteux à exploiter. Le modèle est construit autour de trois capacités de base : l'ingénierie logicielle professionnelle, le travail de bureau professionnel et la collaboration multi-agents native, que MiniMax appelle "Agent Teams". Ces capacités permettent à M2.7 de mener à bien des tâches de productivité hautement complexes en s'appuyant sur des compétences sophistiquées et des recherches d'outils dynamiques.
Exceller dans l'ingénierie en conditions réelles
Les performances du modèle sur les benchmarks simulant des défis d'ingénierie réels le distinguent. Sur SWE-Pro, qui couvre des tâches telles que l'analyse de journaux, le dépannage de bogues et l'examen de la sécurité du code, la précision de 56,22 % de M2.7 égale celle de GPT-5.3-Codex. Cela démontre une capacité à comprendre la logique opérationnelle des systèmes logiciels, et pas seulement à générer du code. L'équipe MiniMax rapporte que cette capacité a été utilisée en interne pour réduire le temps de rétablissement des incidents sur les systèmes de production en direct à moins de trois minutes, le modèle effectuant de manière autonome l'analyse de l'observabilité, les requêtes de base de données et la soumission de demandes de fusion (merge requests).
Au-delà de l'ingénierie : compétences professionnelles en bureautique et en finance
Au-delà de ses prouesses en ingénierie, MiniMax M2.7 cible les tâches de bureau professionnelles. Dans l'évaluation GDPval-AA, qui mesure l'expertise sectorielle sur 45 modèles, M2.7 a obtenu un score ELO de 1495, le plus élevé parmi tous les modèles open source et seulement deuxième derrière les modèles propriétaires de premier plan comme Opus 4.6 et GPT-5.4. En finance, le modèle peut agir comme un analyste junior, capable de lire de manière autonome des rapports annuels, de construire un modèle de prévision des revenus et de produire un rapport de recherche. Cet ensemble de compétences étendues en fait un concurrent direct des modèles positionnés pour un usage en entreprise et professionnel. L'ouverture du code source d'un modèle doté de ces capacités vérifiées pourrait accélérer l'adoption de workflows d'IA agentique dans divers secteurs, impactant les modèles commerciaux des entreprises dépendantes de la vente d'accès à des systèmes fermés similaires.
Cet article est uniquement à titre informatif et ne constitue pas un conseil en investissement.