- OpenAI 在其 Realtime API 中推出了三款新的语音模型。
- 这些模型旨在用于逼真的对话、翻译和转录。
- 新功能面向各行业的企业客户。
返回

OpenAI 周四在其 Realtime API 中发布了三款新的语音模型,旨在为开发人员提供构建响应更快、功能更强的语音驱动应用程序的工具。新模型——GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper——旨在处理复杂的对话任务、实时翻译和实时转录,此举直接挑战了语音 AI 市场中的老牌企业。
“我们推出的这些模型共同将实时音频从简单的问答转变为真正可以执行工作的语音界面:随着对话的展开进行倾听、推理、翻译、转录并采取行动,”该公司表示。
旗舰模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,旨在处理比前代产品更复杂的用户请求。该公司还推出了支持 70 多种输入语言和 13 种输出语言的 GPT-Realtime-Translate,以及用于实时语音转文本的 GPT-Realtime-Whisper。这些新模型可在 OpenAI 的 Realtime API 中使用,GPT-Realtime-2 的定价基于代币消耗,而 Translate 和 Whisper 则按分钟计费。
这些模型的发布预计将加剧语音 AI 领域的竞争,影响提供类似服务的公司。这些新功能与客户服务、教育和媒体等企业应用场景特别契合。OpenAI 表示,它已实施安全措施以防止技术滥用,包括停止违反其内容指南的对话的能力。此次发布增强了 OpenAI 的竞争地位,并可能增加其 API 的采用率,从而推动增长。通过加强其 AI 产品套件,这对其次要合作伙伴微软(Microsoft)而言是利好消息。
本文仅供参考,不构成投资建议。