騰訊 Hy3 AI 模型編程能力提升 40%，比肩 Claude

騰訊控股有限公司發佈了迄今為止功能最強大的大語言模型，基準測試得分顯示其在編程方面實現了 40% 的代際提升，這使得該模型能夠以極低的成本與 Anthropic 和谷歌的對手展開直接競爭。

騰訊在發佈隨附的聲明中表示：「該模型的構建是為了平衡三個方面：能力的廣度、真實的評估和成本效益。」該公司已開源了模型權重，並在其雲平台上提供 API 訪問。

這款名為 Hy3 預覽版的新模型是一個擁有 2950 億參數的混合專家（MoE）系統，在推理過程中僅保持 210 億參數處於激活狀態。在評估模型修復來自 GitHub 的真實漏洞能力的 SWE-bench Verified 編程測試中，Hy3 獲得了 74.4% 的評分，相較於其前代產品實現了 53.0% 有了巨大的飛躍。這使其領先於 GLM-5 (77.8%) 和 Kimi-K2.5 (76.8%) 等競爭對手，並逼近 Anthropic 的 Claude Opus 4.6 (80.8%)。

此次發佈標誌著騰訊向商業化 AI 邁出的戰略性一步，該模型的定價和架構旨在實現大規模部署。花旗集團分析師維持對騰訊的「買入」評級和 783 港元的目标價，稱該模型專注於平衡質量、速度和成本是企業採用的「正確戰略方向」。其定價約為每百萬輸入 Token 0.18 美元，比同類 GPT-4 級別模型便宜約 90%。

專注於商業可行性

騰訊明確通過協同設計模型及其推理框架來針對企業市場，以防止能力提升導致模型定價過高而無法大規模部署。MoE 架構將查詢路由到專門的子網絡，是這一策略的關鍵，顯著降低了每次查詢的計算成本。該公司指出，其之前的旗艦模型擁有超過 4000 億個參數，為了在推理成熟度和成本之間找到最佳平衡，公司刻意縮減了這一數字。

該模型已經集成到包括元寶、QQ 和騰訊文檔在內的十多個騰訊自有產品中。在 CodeBuddy 和 WorkBuddy 等內部應用中，該公司報告首個 Token 延遲下降了 54%，端到端生成時間縮短了 47%，證明了該模型在複雜智能體工作流的生產環境中的穩定性。

基礎設施轉型助力提速

Hy3 預覽版模型從冷啟動到開源發佈用時不到三個月，騰訊將這一時間表歸功於其在 2 月份對預訓練和強化學習堆棧進行的全面改造。在首席 AI 科學家姚順雨的領導下，此次重建遵循了將模型開發閉環直接與產品團隊整合的原則，利用實時指標塑造訓練優先級。

這種模型與產品的緊密集成賦予了騰訊極少數競爭對手能夠匹敵的數據飛輪，使公司能夠將現實世界的用戶互動轉化為快速的模型改進。雖然 Hy3 在某些基準測試上仍落後於 OpenAI 和谷歌 DeepMind 的絕對尖端模型，但其效費比使其成為 AI 基礎設施競賽中一個強大的新競爭者。

本文僅供參考，不構成投資建議。