微軟推出三款自研 AI 模型，旨在降低對 OpenAI 的依賴

微軟最新的自研 AI 模型顯示出清晰的戰略轉型，但實際測試揭露了其與成熟巨頭之間仍存在持續的性能差距。

微軟推出了三款自研人工智能模型，此舉被行業觀察人士視為其減少對合作夥伴 OpenAI 依賴的重要一步。這些新模型——MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2——涵蓋了語音轉錄、語音生成和圖像創建，目前已透過 Microsoft Foundry 平台商用。

「這一舉措標誌著微軟努力構建自己的 AI 技術棧，」一份媒體報告評論道，反映了該公司正在使 AI 能力多樣化。Foundry 平台現在除了提供來自 OpenAI 和 Anthropic 的模型外，還提供微軟的 MAI 系列，讓客戶透過單一 API 即可訪問多個供應商。

公司官方基準測試聲稱性能提升顯著。據報導，MAI-Transcribe-1 的速度是現有 Azure Fast 產品的 2.5 倍，MAI-Voice-1 可以在僅一秒內生成 60 秒音訊，而 MAI-Image-2 的圖像生成速度至少提高了兩倍。定價方面，轉錄費用定為每小時 0.36 美元，語音生成為每百萬字元 22 美元，圖像文本提示則為每百萬 Token 5 美元起。

對於投資者而言，這次發布提出了一個關鍵問題：微軟的內部開發能否縮小與 OpenAI 等合作夥伴及 Google 等競爭對手領先模型之間的性能差距？雖然微軟與 OpenAI 的合同延長至 2032 年，但其自研戰略的經濟可行性取決於能否實現具競爭力的性能，這將決定其巨大研發投入的長期回報。

MAI-Transcribe-1 在高速音訊測試中折戟

在測試中，MAI-Transcribe-1 模型的表現參半。雖然它在正常速度下準確轉錄了電影《無間道》中的場景，但在音訊以雙倍速播放時卻失敗了。該模型將關於「警校」和「臥底」的內容誤讀為「劍橋」和「會計」，完全改變了語境。

在電影《寒戰》一段更為激烈、快節奏的爭吵測試中，該模型的穩定性進一步受到挑戰，未能產生任何輸出。這些測試表明，雖然該模型能勝任標準語音，但在涉及高速或強烈情感的複雜音訊時性能下降，與 OpenAI 的 Whisper 等市場領先者相比存在差距。

語音與圖像模型雖有局限但具潛力

其他模型也展示了各自的優缺點。MAI-Voice-1 產生了令人印象深刻的鮮明音訊風格，包括帶戲劇性節奏的莎士比亞式英語口音和明快現代的美式口音。模型輸出甚至包含了吞嚥聲等細微細節，增加了極高的真實感。

在 Arena.ai 用戶排行榜上僅次於 Google 和 OpenAI 模型位列第三的 MAI-Image-2，能夠根據詳細提示詞生成高品質的自然景觀。然而，當面對涉及多個主體和場景的複雜指令時，它未能生成圖像，表明其在處理複雜用戶請求方面存在局限。廣告巨頭 WPP 被列為該模型首批主要企業用戶之一。

本文僅供參考，不構成投資建議。