テンセント・ホールディングス(騰訊控股)は、これまでで最も有能な大規模言語モデルをリリースしました。ベンチマークスコアは、コーディングにおいて40%の世代交代的な向上を示しており、AnthropicやGoogleのライバル製品と、わずかなコストで直接競合できる水準に達しています。
テンセントは、リリースの声明の中で、「このモデルは、能力の広さ、誠実な評価、そしてコスト効率という3つのバランスを取るために構築されました」と述べています。同社はモデルの重みをオープンソース化し、自社のクラウドプラットフォームでAPIアクセスを提供しています。
新しいモデル「Hy3プレビュー」は、2,950億パラメータの混合専門家(MoE)システムで、推論中にアクティブになるのは210億パラメータのみです。GitHubの実際のバグを修正する能力を評価するコーディングテスト「SWE-bench Verified」において、Hy3は74.4%を記録し、前身モデルの53.0%から劇的な飛躍を遂げました。これにより、GLM-5(77.8%)やKimi-K2.5(76.8%)といった競合を上回り、AnthropicのClaude Opus 4.6(80.8%)にも肉薄しています。
今回のリリースは、テンセントが商業的に実現可能なAIへと戦略的に舵を切ったことを示しており、モデルの価格設定とアーキテクチャは大規模な導入向けに設計されています。シティグループのアナリストは、テンセントの投資判断「買い」と目標株価783香港ドルを据え置き、品質、速度、コストのバランスを重視したこのモデルを、企業導入に向けた「正しい戦略的方向性」と評価しました。価格は100万入力トークンあたり約0.18ドルで、同等のGPT-4クラスのモデルより約90%安価です。
商業的な実行可能性への注力
テンセントは、能力の向上がモデルの価格を押し上げ、大規模な導入を妨げることがないよう、モデルとその推論フレームワークを共同設計することで、明確に法人市場をターゲットにしています。クエリを専門のサブネットワークにルーティングするMoEアーキテクチャはこの戦略の鍵であり、クエリあたりの計算コストを大幅に削減します。同社は、以前のフラッグシップモデルは4,000億以上のパラメータを持っていたものの、推論の成熟度とコストの最適なバランスを見つけるために、あえてその数を減らしたと述べています。
このモデルは、Yuanbao(元宝)、QQ、Tencent Docsなど、すでに10以上の自社製品に統合されています。CodeBuddyやWorkBuddyといった内部アプリケーションでは、最初のトークンの遅延が54%減少し、エンドツーエンドの生成時間が47%短縮されたと報告されており、複雑なエージェントワークフローにおける本番環境での安定性が実証されています。
インフラの刷新がスピードを可能に
Hy3プレビューモデルは、開発着手からオープンソース公開まで3ヶ月足らずで到達しました。テンセントはこのタイムラインを、2月に行った事前学習および強化学習スタックの全面的な刷新によるものだとしています。チーフAIサイエンティストの姚順雨(Yao Shunyu)氏が率いるこの再構築は、モデル開発のループを製品チームと直接統合し、ライブメトリクスに基づいて学習の優先順位を形成するという原則に基づいています。
モデルと製品のこの密接な統合は、他社には真似できないデータフライホイールをテンセントにもたらし、実際のユーザーとのやり取りを迅速なモデル改善に変換することを可能にしています。Hy3は、一部のベンチマークでは依然としてOpenAIやGoogle DeepMindの最先端モデルに後れを取っていますが、コストあたりのパフォーマンス比は、AIインフラ競争において強力な新規参入者となっています。
本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。