OpenAI、リアルタイムアプリ向けの新型音声モデル3種をリリース

OpenAIは木曜日、開発者がより応答性が高く高機能な音声駆動アプリを構築できるようにすることを目的として、Realtime APIに3つの新しい音声モデルをリリースしました。「GPT-Realtime-2」、「GPT-Realtime-Translate」、「GPT-Realtime-Whisper」と名付けられたこれらの新モデルは、複雑な会話タスク、ライブ翻訳、リアルタイム文字起こしを処理するように設計されており、音声AI市場の既存企業に直接挑む形となります。

同社は、「今回リリースするモデル群により、リアルタイムオーディオは単なる一問一答から、実際に『仕事』ができる音声インターフェースへと進化します。会話が進むにつれて、聞き取り、推論、翻訳、文字起こしを行い、アクションを実行することが可能になります」と述べています。

フラッグシップモデルであるGPT-Realtime-2は、GPT-5クラスの推論能力を備えており、従来モデルよりも複雑なユーザーリクエストを処理できるように設計されています。また、70以上の入力言語と13の出力言語をサポートするGPT-Realtime-Translateと、ライブ音声のテキスト化を行うGPT-Realtime-Whisperも発表されました。これらの新モデルはOpenAIのRealtime APIで利用可能で、料金はGPT-Realtime-2がトークン消費量ベース、TranslateとWhisperは分単位の課金体系となっています。

これらのモデルのリリースにより、音声AI分野の競争が激化し、同様のサービスを提供する企業に影響を与えることが予想されます。新機能は、カスタマーサービス、教育、メディアなどの企業向けユースケースに特に適しています。OpenAIは、コンテンツガイドラインに違反する会話を停止させる機能など、テクノロジーの悪用を防ぐための安全策を講じていると説明しました。今回の発表はOpenAIの競争力を高め、APIの採用拡大と成長を加速させる可能性があります。また、AI製品群が強化されることで、主要パートナーであるマイクロソフトにとってもポジティブな材料（強気）となります。

本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。