Zhipu AIの新API、秒間400トークンに到達し速度競争をリード

Zhipu AIは、エンタープライズ人工知能の速度競争を激化させています。同社はGLM-5.1モデル向けの新しいAPIをリリースし、秒間400トークンという、商用大規模言語モデルAPIの新たな金字塔を打ち立てました。この動きは既存のプレーヤーに挑戦状を叩きつけるものであり、企業導入の鍵となる推論パフォーマンスへの市場の関心の高まりを浮き彫りにしています。

同社は声明で、「GLM-5.1高速版は、AIプログラミング、リアルタイムの対話、ビジネスの意思決定など、応答遅延に対する要件が極めて高いシナリオ向けに設計されています」と発表しました。

GLM-5.1-highspeed APIは、当初、ZhipuのMaasプラットフォーム上の一部企業顧客に提供されます。秒間400トークンの出力速度は、リアルタイムの音声アプリケーションや自動化されたビジネスロジックなど、従来の遅い会話型モデルでは対応が困難だった低遅延のエンタープライズ・ユースケースを真っ向から見据えています。

この動きは、APIベースの推論に新たなパフォーマンス基準を確立することで、世界の競合他社に圧力をかけています。Kore.aiやCerebrasのような企業も速度と効率の限界を押し広げる中、焦点は純粋なモデル能力から実用レベルのパフォーマンスへと移っており、数千億円規模の企業ITインフラにおけるAI支出に影響を与えています。

ミリ秒単位で争う混戦の領域

Zhipuの発表は、真空地帯で起きたわけではありません。AI業界全体が遅延（レイテンシ）を削減するための激しい戦いの最中にあります。Zhipuの秒間400トークンは商用APIとして記録を更新しましたが、他の企業は特殊な構成でさらに高い速度を記録しています。チップスタートアップのCerebrasは最近、同社のプラットフォームが1兆パラメータのモデル「Kimi K2.6」を秒間981トークンで実行すると発表しました。これはGPUベースのクラウドよりも約7倍高速です。しかし、これはCerebras独自のウェーハスケール・エンジンという、一般的なAPIからはアクセスできない特殊なハードウェアアーキテクチャに依存しています。

競争は純粋なハードウェア性能にとどまりません。エンタープライズAIプラットフォームプロバイダーのKore.aiは最近、企業がAIエージェントを構築・管理できるように設計された「Artemis」プラットフォームを立ち上げました。この立ち上げは、速度が重要である一方で、金融やヘルスケアなどの規制業界での導入には、ガバナンス、セキュリティ、ベンダーの中立性といった要素も同様に重要であることを強調しています。これにより、Zhipuの速度ベンチマークは、Microsoft、Google、Salesforceといった巨人のエコシステムと競合する、より広い文脈に置かれることになります。

生のパワーからエンタープライズ・レディへ

より速いトークン生成の追求は、明確なビジネスニーズによって推進されています。AIがコアビジネスプロセスに不可欠なものになるためには、リアルタイムで動作しなければなりません。リアルタイムの音声文字起こし、金融トレーダー向けのインタラクティブなデータ分析、動的なECレコメンデーションなどのユースケースには、現在の多くのモデルでは提供できないほぼ瞬時の応答が必要です。Zhipuは、数百ミリ秒の遅延が製品の存続を左右する、この市場セグメントを直接ターゲットにしています。

投資家にとって、この傾向はAI市場の成熟を示唆しています。これまではモデルのサイズやベンチマークスコアが話題をさらってきましたが、価値が回収されるのは、これらのモデルを迅速かつコスト効率よく提供できる能力においてです。Zhipuの提供するソリューションは、企業がより洗練されたAIを導入する障壁を下げ、速度の遅い既存勢力から市場シェアを奪う可能性があります。ZhipuやKore.aiなどのプラットフォームの成功は、単に速いモデルを提供するだけでなく、完全で信頼性が高く、安全なエンタープライズ・ソリューションを提供できるかどうかにかかっています。

この記事は情報提供のみを目的としており、投資アドバイスを構成するものではありません。