- マイクロソフトは、文字起こし、音声、画像生成用の自社製AIモデル3種をリリースした。
- この動きは、パートナーであるOpenAIへの長期的な依存を低減する戦略を示している。
- テストの結果、モデルは高速だが、競合他社に比べて複雑なタスクには苦戦することが判明した。
戻る

マイクロソフトによる最新の自社製AIモデルは明確な戦略的転換を示しているが、実環境でのテストでは、既存の有力プレーヤーとの間に依然として性能の差があることが浮き彫りになった。
マイクロソフトは3つの独自AIモデルをリリースした。これは業界観測筋の間で、パートナーであるOpenAIへの依存度を下げるための重要な一歩と見なされている。新モデル「MAI-Transcribe-1」「MAI-Voice-1」「MAI-Image-2」は、音声の文字起こし、音声生成、画像作成をカバーしており、現在はMicrosoft Foundryプラットフォームを通じて商用利用が可能だ。
「この動きは、マイクロソフトが独自のAIテクノロジースタックを構築しようとする取り組みを象徴している」と、あるメディアレポートはコメントし、同社がAI能力の多様化を図っているという見解を反映した。Foundryプラットフォームでは現在、OpenAIやAnthropicのモデルと並んでマイクロソフトのMAIシリーズが提供されており、顧客は単一のAPIを通じて複数のプロバイダーにアクセスできる。
同社の公式ベンチマークでは、大幅なパフォーマンス向上が主張されている。MAI-Transcribe-1は既存のAzure Fast製品よりも2.5倍高速であり、MAI-Voice-1はわずか1秒で60秒の音声を生成でき、MAI-Image-2は画像生成速度が少なくとも2倍向上している。価格は、文字起こしが1時間あたり0.36ドル、音声生成が100万文字あたり22ドル、画像生成(テキストプロンプト)が100万トークンあたり5ドルからに設定されている。
投資家にとって、今回のリリースは重要な問いを投げかけている。マイクロソフトの内部開発は、OpenAIなどのパートナーやグーグルのような競合他社の主要モデルとの性能差を縮めることができるのだろうか。マイクロソフトとOpenAIの契約は2032年まで継続するが、自社戦略の経済的存続性は、競争力のあるパフォーマンスを達成できるかどうかにかかっており、それが多額のR&D投資に対する長期的なリターンを決定することになる。
テストにおいて、MAI-Transcribe-1モデルはまちまちな結果を示した。映画『インファナル・アフェア(無間道)』のシーンを通常速度では正確に文字起こししたが、2倍速で再生すると失敗した。モデルは「警察学校(警校)」や「潜入捜査官(卧底)」に関するセリフを「ケンブリッジ(剑桥)」や「会計士(会计)」と聞き間違え、文脈を完全に変えてしまった。
モデルの安定性は、映画『コールド・ウォー 香港警察 二つの正義(寒戦)』のより激しくテンポの速い口論シーンでさらに試されたが、そこでは何も出力できなかった。これらのテストは、同モデルが標準的な発話には有能であるものの、高速や強い感情を伴う複雑なオーディオではパフォーマンスが低下し、OpenAIのWhisperのような市場リーダーとの差を露呈していることを示している。
他のモデルは強みと弱点の両方を示した。MAI-Voice-1は、演劇的な間の取り方を備えたシェイクスピア風のイギリス英語のアクセントや、明るく現代的なアメリカ英語のアクセントなど、印象的で際立ったオーディオスタイルを生成した。モデルの出力には唾液の音などの微細なディテールが含まれており、高いリアリズムを加えていた。
Arena.aiのユーザーリーダーボードでグーグルとOpenAIのモデルに次ぐ3位にランクされているMAI-Image-2は、詳細なプロンプトから高品質な自然風景のレンダリングを作成した。しかし、複数の被写体やシーンを含む複雑な指示を与えると画像の生成に失敗し、複雑なユーザーリクエストの処理における限界を示した。広告大手のWPPが、このモデルの最初の主要なエンタープライズユーザーの1つとして挙げられている。
本記事は情報提供のみを目的としており、投資勧誘を意図するものではありません。