- 微软发布了三款用于转录、语音和图像生成的自研 AI 模型。
- 此举展示了其减少对合作伙伴 OpenAI 长期依赖的战略意图。
- 测试结果显示模型速度较快,但在处理复杂任务时仍逊于竞争对手。
返回

微软最新的自研 AI 模型显示出清晰的战略转型,但实际测试揭示了其与成熟巨头之间仍存在持续的性能差距。
微软推出了三款自研人工智能模型,此举被行业观察人士视为其减少对合作伙伴 OpenAI 依赖的重要一步。这些新模型——MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2——涵盖了语音转录、语音生成和图像创建,目前已通过 Microsoft Foundry 平台商用。
“这一举措标志着微软努力构建自己的 AI 技术栈,”一份媒体报告评论道,反映了该公司正在使 AI 能力多样化。Foundry 平台现在除了提供来自 OpenAI 和 Anthropic 的模型外,还提供微软的 MAI 系列,让客户通过单一 API 即可访问多个供应商。
公司官方基准测试声称性能提升显著。据报道,MAI-Transcribe-1 的速度是现有 Azure Fast 产品的 2.5 倍,MAI-Voice-1 可以在仅一秒内生成 60 秒音频,而 MAI-Image-2 的图像生成速度至少提高了两倍。定价方面,转录费用定为每小时 0.36 美元,语音生成为每百万字符 22 美元,图像文本提示则为每百万 Token 5 美元起。
对于投资者而言,这次发布提出了一个关键问题:微软的内部开发能否缩小与 OpenAI 等合作伙伴及谷歌等竞争对手领先模型之间的性能差距?虽然微软与 OpenAI 的合同延长至 2032 年,但其自研战略的经济可行性取决于能否实现具竞争力的性能,这将决定其巨大研发投入的长期回报。
在测试中,MAI-Transcribe-1 模型的表现参半。虽然它在正常速度下准确转录了电影《无间道》中的场景,但在音频以双倍速播放时却失败了。该模型将关于“警校”和“卧底”的内容误读为“剑桥”和“会计”,完全改变了语境。
在电影《寒战》一段更为激烈、快节奏的争吵测试中,该模型的稳定性进一步受到挑战,未能产生任何输出。这些测试表明,虽然该模型能胜任标准语音,但在涉及高速或强烈情感的复杂音频时性能下降,与 OpenAI 的 Whisper 等市场领先者相比存在差距。
其他模型也展示了各自的优缺点。MAI-Voice-1 产生了令人印象深刻的鲜明音频风格,包括带戏剧性节奏的莎士比亚式英语口音和明快现代的美式口音。模型输出甚至包含了吞咽声等细微细节,增加了极高的真实感。
在 Arena.ai 用户排行榜上仅次于谷歌和 OpenAI 模型位列第三的 MAI-Image-2,能够根据详细提示词生成高质量的自然景观。然而,当面对涉及多个主体和场景的复杂指令时,它未能生成图像,表明其在处理复杂用户请求方面存在局限。广告巨头 WPP 被列为该模型首批主要企业用户之一。
本文仅供参考,不构成投资建议。