- OpenAI가 자사 Realtime API에 세 가지 새로운 음성 모델을 출시했습니다.
- 이 모델들은 실감 나는 대화, 번역 및 전사를 위해 설계되었습니다.
- 새로운 기능들은 다양한 분야의 기업 고객을 대상으로 합니다.
뒤로

OpenAI는 목요일 자사의 Realtime API에 3종의 새로운 음성 모델을 출시하며, 개발자들에게 더 빠르고 유능한 음성 지원 애플리케이션을 구축할 수 있는 툴을 제공하기 시작했습니다. GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper로 명명된 이 새로운 모델들은 복잡한 대화 작업, 실시간 번역 및 실시간 전사를 처리하도록 설계되었으며, 이는 음성 AI 시장의 기존 업체들에 직접적인 도전장을 내미는 행보입니다.
회사 측은 "우리가 출시하는 모델들은 실시간 오디오를 단순한 문답 형태에서 실제 업무를 수행할 수 있는 음성 인터페이스로 진화시킵니다. 대화가 진행됨에 따라 경청하고, 추론하며, 번역 및 전사하고 행동을 취할 수 있습니다"라고 밝혔습니다.
플래그십 모델인 GPT-Realtime-2는 GPT-5급 추론 능력을 갖추고 있어 이전 모델보다 더 복잡한 사용자 요청을 처리하도록 설계되었습니다. 또한 OpenAI는 70개 이상의 입력 언어와 13개 출력 언어를 지원하는 GPT-Realtime-Translate와 실시간 음성-텍스트 전사를 위한 GPT-Realtime-Whisper도 함께 출시했습니다. 새로운 모델들은 OpenAI의 Realtime API에서 사용할 수 있으며, 가격은 GPT-Realtime-2의 경우 토큰 소비량에 따라, Translate와 Whisper의 경우 분당 요금으로 책정됩니다.
이번 모델 출시로 음성 AI 분야의 경쟁이 심화되어 유사한 서비스를 제공하는 기업들에 영향을 미칠 것으로 예상됩니다. 새로운 기능들은 특히 고객 서비스, 교육, 미디어와 같은 기업용 사례에 적합합니다. OpenAI는 콘텐츠 가이드를 위반하는 대화를 중단시키는 기능을 포함하여 기술 오용을 방지하기 위한 안전 조치를 시행했다고 언급했습니다. 이번 출시는 OpenAI의 경쟁 우위를 강화하고 API 도입을 촉진하여 성장을 견인할 수 있습니다. 이는 AI 제품군을 강화함으로써 주요 파트너사인 마이크로소프트(Microsoft)에게도 긍정적인 신호입니다.
이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.