- OpenAI 在其 Realtime API 中推出了三款新的語音模型。
- 這些模型旨在用於逼真的對話、翻譯和轉錄。
- 新功能面向各行業企業客戶。
返回

OpenAI 週四在其 Realtime API 中發布了三款新的語音模型,旨在為開發人員提供構建響應更快、功能更強的語音驅動應用程序的工具。新模型——GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper——旨在處理複雜的對話任務、實時翻譯和實時轉錄,此舉直接挑戰了語音 AI 市場中的老牌企業。
「我們推出的這些模型共同將實時音頻從簡單的問答轉變為真正可以執行工作的語音界面:隨著對話的展開進行傾聽、推理、翻譯、轉錄並採取行動,」該公司表示。
旗艦模型 GPT-Realtime-2 具備 GPT-5 級別的推理能力,旨在處理比前代產品更複雜的用戶請求。該公司還推出了支持 70 多種輸入語言和 13 種輸出語言的 GPT-Realtime-Translate,以及用於實時語音轉文本的 GPT-Realtime-Whisper。這些新模型可在 OpenAI 的 Realtime API 中使用,GPT-Realtime-2 的定價基於代幣消耗,而 Translate 和 Whisper 則按分鐘計費。
這些模型的發布預計將加劇語音 AI 領域的競爭,影響提供類似服務的公司。這些新功能與客戶服務、教育和媒體等企業應用場景特別契合。OpenAI 表示,它已實施安全措施以防止技術濫用,包括停止違反其內容指南的對話的能力。此次發布增強了 OpenAI 的競爭地位,並可能增加其 API 的採用率,從而推動增長。通過加強其 AI 產品套件,這對其關鍵合作夥伴微軟(Microsoft)而言是利好消息。
本文僅供參考,不構成投資建議。