Les derniers modèles d'IA internes de Microsoft affichent un virage stratégique clair, mais les tests en conditions réelles révèlent un écart de performance persistant avec les acteurs établis.
Microsoft a lancé trois modèles d'intelligence artificielle propriétaires, une initiative perçue par les observateurs du secteur comme une étape importante vers la réduction de sa dépendance à l'égard de son partenaire OpenAI. Les nouveaux modèles — MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 — couvrent la transcription de la parole, la génération de voix et la création d'images, et sont désormais disponibles commercialement via la plateforme Microsoft Foundry.
« Ce mouvement marque l'effort de Microsoft pour construire sa propre pile technologique d'IA », a commenté un rapport médiatique, reflétant l'idée que l'entreprise diversifie ses capacités en IA. La plateforme Foundry propose désormais la série MAI de Microsoft aux côtés des modèles d'OpenAI et d'Anthropic, offrant aux clients l'accès à plusieurs fournisseurs via une API unique.
Les références officielles de l'entreprise revendiquent des gains de performance significatifs. MAI-Transcribe-1 serait 2,5 fois plus rapide que le produit Azure Fast actuel, MAI-Voice-1 peut générer 60 secondes d'audio en une seule seconde, et MAI-Image-2 offre une amélioration d'au moins deux fois de la vitesse de génération d'images. Les tarifs ont été fixés à 0,36 $ par heure pour la transcription, 22 $ par million de caractères pour la génération de voix, et à partir de 5 $ par million de tokens pour les invites textuelles d'images.
Pour les investisseurs, ce lancement soulève une question cruciale : le développement interne de Microsoft peut-il combler l'écart de performance avec les modèles de pointe de partenaires comme OpenAI et de concurrents comme Google ? Bien que le contrat de Microsoft avec OpenAI s'étende jusqu'en 2032, la viabilité économique de sa stratégie interne dépend de l'atteinte d'une performance compétitive, facteur qui déterminera les rendements à long terme de ses investissements massifs en R&D.
MAI-Transcribe-1 à la traîne lors des tests audio à haute vitesse
Lors des tests, le modèle MAI-Transcribe-1 a montré des résultats mitigés. S'il a transcrit avec précision une scène du film Infernal Affairs à vitesse normale, il a échoué lorsque l'audio était lu à double vitesse. Le modèle a interprété une réplique sur l'« école de police » (警校) et les « agents infiltrés » (卧底) comme parlant de « Cambridge » (剑桥) et de « comptables » (会计), modifiant totalement le contexte.
La stabilité du modèle a été davantage mise à l'épreuve lors d'une dispute intense et rapide du film Cold War, où il n'a produit aucun résultat. Ces tests montrent que si le modèle est compétent pour la parole standard, ses performances déclinent face à des audios complexes impliquant une vitesse élevée ou une forte émotion, révélant un fossé par rapport aux leaders du marché comme Whisper d'OpenAI.
Des modèles de voix et d'images prometteurs malgré des limites
Les autres modèles ont démontré à la fois des forces et des faiblesses. MAI-Voice-1 a produit des styles audio remarquablement distincts, notamment un accent anglais shakespearien avec un rythme théâtral et un accent américain moderne et clair. La sortie du modèle incluait des détails fins tels que des bruits de salive, ajoutant un haut degré de réalisme.
MAI-Image-2, qui occupe la troisième place du classement des utilisateurs Arena.ai derrière les modèles de Google et d'OpenAI, a produit des rendus de paysages naturels de haute qualité à partir d'invites détaillées. Cependant, il n'a pas réussi à générer des images lorsqu'il recevait des instructions complexes impliquant plusieurs sujets et scènes, indiquant une limite dans la gestion des requêtes complexes des utilisateurs. Le géant de la publicité WPP est cité comme l'un des premiers grands utilisateurs entreprises de ce modèle.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.