- 微軟發布了三款用於轉錄、語音和圖像生成的自研 AI 模型。
- 此舉展示了其減少對合作夥伴 OpenAI 長期依賴的戰略意圖。
- 測試結果顯示模型速度較快,但在處理複雜任務時仍遜於競爭對手。
返回

微軟最新的自研 AI 模型顯示出清晰的戰略轉型,但實際測試揭露了其與成熟巨頭之間仍存在持續的性能差距。
微軟推出了三款自研人工智能模型,此舉被行業觀察人士視為其減少對合作夥伴 OpenAI 依賴的重要一步。這些新模型——MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2——涵蓋了語音轉錄、語音生成和圖像創建,目前已透過 Microsoft Foundry 平台商用。
「這一舉措標誌著微軟努力構建自己的 AI 技術棧,」一份媒體報告評論道,反映了該公司正在使 AI 能力多樣化。Foundry 平台現在除了提供來自 OpenAI 和 Anthropic 的模型外,還提供微軟的 MAI 系列,讓客戶透過單一 API 即可訪問多個供應商。
公司官方基準測試聲稱性能提升顯著。據報導,MAI-Transcribe-1 的速度是現有 Azure Fast 產品的 2.5 倍,MAI-Voice-1 可以在僅一秒內生成 60 秒音訊,而 MAI-Image-2 的圖像生成速度至少提高了兩倍。定價方面,轉錄費用定為每小時 0.36 美元,語音生成為每百萬字元 22 美元,圖像文本提示則為每百萬 Token 5 美元起。
對於投資者而言,這次發布提出了一個關鍵問題:微軟的內部開發能否縮小與 OpenAI 等合作夥伴及 Google 等競爭對手領先模型之間的性能差距?雖然微軟與 OpenAI 的合同延長至 2032 年,但其自研戰略的經濟可行性取決於能否實現具競爭力的性能,這將決定其巨大研發投入的長期回報。
在測試中,MAI-Transcribe-1 模型的表現參半。雖然它在正常速度下準確轉錄了電影《無間道》中的場景,但在音訊以雙倍速播放時卻失敗了。該模型將關於「警校」和「臥底」的內容誤讀為「劍橋」和「會計」,完全改變了語境。
在電影《寒戰》一段更為激烈、快節奏的爭吵測試中,該模型的穩定性進一步受到挑戰,未能產生任何輸出。這些測試表明,雖然該模型能勝任標準語音,但在涉及高速或強烈情感的複雜音訊時性能下降,與 OpenAI 的 Whisper 等市場領先者相比存在差距。
其他模型也展示了各自的優缺點。MAI-Voice-1 產生了令人印象深刻的鮮明音訊風格,包括帶戲劇性節奏的莎士比亞式英語口音和明快現代的美式口音。模型輸出甚至包含了吞嚥聲等細微細節,增加了極高的真實感。
在 Arena.ai 用戶排行榜上僅次於 Google 和 OpenAI 模型位列第三的 MAI-Image-2,能夠根據詳細提示詞生成高品質的自然景觀。然而,當面對涉及多個主體和場景的複雜指令時,它未能生成圖像,表明其在處理複雜用戶請求方面存在局限。廣告巨頭 WPP 被列為該模型首批主要企業用戶之一。
本文僅供參考,不構成投資建議。