腾讯 Hy3 AI 模型编程能力提升 40%，比肩 Claude

腾讯控股有限公司发布了迄今为止功能最强大的大语言模型，基准测试得分显示其在编程方面实现了 40% 的代际提升，这使得该模型能够以极低的成本与 Anthropic 和谷歌的对手展开直接竞争。

腾讯在发布随附的声明中表示：“该模型的构建是为了平衡三个方面：能力的广度、真实的评估和成本效益。”该公司已开源了模型权重，并在其云平台上提供 API 访问。

这款名为 Hy3 预览版的新模型是一个拥有 2950 亿参数的混合专家（MoE）系统，在推理过程中仅保持 210 亿参数处于激活状态。在评估模型修复来自 GitHub 的真实漏洞能力的 SWE-bench Verified 编程测试中，Hy3 获得了 74.4% 的评分，相较于其前代产品实现的 53.0% 有了巨大的飞跃。这使其领先于 GLM-5 (77.8%) 和 Kimi-K2.5 (76.8%) 等竞争对手，并逼近 Anthropic 的 Claude Opus 4.6 (80.8%)。

此次发布标志着腾讯向商业化 AI 迈出的战略性一步，该模型的定价和架构旨在实现大规模部署。花旗集团分析师维持对腾讯的“买入”评级和 783 港元的目标价，称该模型专注于平衡质量、速度和成本是企业采用的“正确战略方向”。其定价约为每百万输入 Token 0.18 美元，比同类 GPT-4 级别模型便宜约 90%。

专注于商业可行性

腾讯明确通过协同设计模型及其推理框架来针对企业市场，以防止能力提升导致模型定价过高而无法大规模部署。MoE 架构将查询路由到专门的子网络，是这一策略的关键，显著降低了每次查询的计算成本。该公司指出，其之前的旗舰模型拥有超过 4000 亿个参数，为了在推理成熟度和成本之间找到最佳平衡，公司刻意缩减了这一数字。

该模型已经集成到包括元宝、QQ 和腾讯文档在内的十多个腾讯自有产品中。在 CodeBuddy 和 WorkBuddy 等内部应用中，该公司报告首个 Token 延迟下降了 54%，端到端生成时间缩短了 47%，证明了该模型在复杂智能体工作流的生产环境中的稳定性。

基础设施转型助力提速

Hy3 预览版模型从冷启动到开源发布用时不到三个月，腾讯将这一时间表归功于其在 2 月份对预训练和强化学习堆栈进行的全面改造。在首席 AI 科学家姚顺雨的领导下，此次重建遵循了将模型开发闭环直接与产品团队整合的原则，利用实时指标塑造训练优先级。

这种模型与产品的紧密集成赋予了腾讯极少数竞争对手能够匹敌的数据飞轮，使公司能够将现实世界的用户互动转化为快速的模型改进。虽然 Hy3 在某些基准测试上仍落后于 OpenAI 和谷歌 DeepMind 的绝对尖端模型，但其效费比使其成为 AI 基础设施竞赛中一个强大的新竞争者。

本文仅供参考，不构成投资建议。