OpenAI a publié jeudi un trio de nouveaux modèles vocaux dans son API Realtime, visant à fournir aux développeurs les outils nécessaires pour créer des applications vocales plus réactives et performantes. Les nouveaux modèles — GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper — sont conçus pour gérer des tâches conversationnelles complexes, la traduction en direct et la transcription en temps réel, une initiative qui défie directement les acteurs établis sur le marché de l'IA vocale.
« Ensemble, les modèles que nous lançons font passer l'audio en temps réel d'un simple échange de questions-réponses à des interfaces vocales capables de réellement travailler : écouter, raisonner, traduire, transcrire et agir au fur et à mesure d'une conversation », a déclaré l'entreprise.
Le modèle phare, GPT-Realtime-2, est doté d'une capacité de raisonnement de classe GPT-5 et est conçu pour traiter des demandes d'utilisateurs plus complexes que son prédécesseur. La société a également lancé GPT-Realtime-Translate, qui prend en charge plus de 70 langues d'entrée et 13 langues de sortie, ainsi que GPT-Realtime-Whisper pour la transcription de la parole en texte en direct. Les nouveaux modèles sont disponibles dans l'API Realtime d'OpenAI, avec une tarification basée sur la consommation de jetons (tokens) pour GPT-Realtime-2 et une facturation à la minute pour Translate et Whisper.
La sortie de ces modèles devrait intensifier la concurrence dans le secteur de l'IA vocale, impactant les entreprises qui fournissent des services similaires. Les nouvelles capacités sont particulièrement pertinentes pour les cas d'utilisation en entreprise tels que le service client, l'éducation et les médias. OpenAI a déclaré avoir mis en œuvre des mesures de sécurité pour prévenir toute utilisation abusive de la technologie, y compris la possibilité d'interrompre les conversations qui violent ses directives de contenu. Ce lancement renforce la position concurrentielle d'OpenAI et pourrait accroître l'adoption de son API, stimulant ainsi la croissance. C'est un signal haussier pour son partenaire clé, Microsoft, en renforçant sa suite de produits d'IA.
Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.