微软推出三款自研 AI 模型旨在降低对 OpenAI 依赖

微软最新的自研 AI 模型显示出清晰的战略转型，但实际测试揭示了其与成熟巨头之间仍存在持续的性能差距。

微软推出了三款自研人工智能模型，此举被行业观察人士视为其减少对合作伙伴 OpenAI 依赖的重要一步。这些新模型——MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2——涵盖了语音转录、语音生成和图像创建，目前已通过 Microsoft Foundry 平台商用。

“这一举措标志着微软努力构建自己的 AI 技术栈，”一份媒体报告评论道，反映了该公司正在使 AI 能力多样化。Foundry 平台现在除了提供来自 OpenAI 和 Anthropic 的模型外，还提供微软的 MAI 系列，让客户通过单一 API 即可访问多个供应商。

公司官方基准测试声称性能提升显著。据报道，MAI-Transcribe-1 的速度是现有 Azure Fast 产品的 2.5 倍，MAI-Voice-1 可以在仅一秒内生成 60 秒音频，而 MAI-Image-2 的图像生成速度至少提高了两倍。定价方面，转录费用定为每小时 0.36 美元，语音生成为每百万字符 22 美元，图像文本提示则为每百万 Token 5 美元起。

对于投资者而言，这次发布提出了一个关键问题：微软的内部开发能否缩小与 OpenAI 等合作伙伴及谷歌等竞争对手领先模型之间的性能差距？虽然微软与 OpenAI 的合同延长至 2032 年，但其自研战略的经济可行性取决于能否实现具竞争力的性能，这将决定其巨大研发投入的长期回报。

MAI-Transcribe-1 在高速音频测试中折戟

在测试中，MAI-Transcribe-1 模型的表现参半。虽然它在正常速度下准确转录了电影《无间道》中的场景，但在音频以双倍速播放时却失败了。该模型将关于“警校”和“卧底”的内容误读为“剑桥”和“会计”，完全改变了语境。

在电影《寒战》一段更为激烈、快节奏的争吵测试中，该模型的稳定性进一步受到挑战，未能产生任何输出。这些测试表明，虽然该模型能胜任标准语音，但在涉及高速或强烈情感的复杂音频时性能下降，与 OpenAI 的 Whisper 等市场领先者相比存在差距。

语音与图像模型虽有局限但具潜力

其他模型也展示了各自的优缺点。MAI-Voice-1 产生了令人印象深刻的鲜明音频风格，包括带戏剧性节奏的莎士比亚式英语口音和明快现代的美式口音。模型输出甚至包含了吞咽声等细微细节，增加了极高的真实感。

在 Arena.ai 用户排行榜上仅次于谷歌和 OpenAI 模型位列第三的 MAI-Image-2，能够根据详细提示词生成高质量的自然景观。然而，当面对涉及多个主体和场景的复杂指令时，它未能生成图像，表明其在处理复杂用户请求方面存在局限。广告巨头 WPP 被列为该模型首批主要企业用户之一。

本文仅供参考，不构成投资建议。