核心要点:
- 阿里巴巴的 Qwen 3.7-Max 在 Code Arena 排行榜上获得 1541 分,编程能力位居全球第二,超越了 OpenAI 和谷歌的模型。
- 该模型是阿里巴巴“AI 工厂”战略的核心部分,该战略将自有模型与自研的震武 M890 AI 加速芯片及服务器基础设施相结合。
- Qwen 3.7-Max 专为复杂的自主任务设计,在内部测试的单次运行中处理了超过 1,000 次工具调用,标志着其重点转向企业级智能体工作流。
核心要点:

阿里巴巴最新的旗舰模型 Qwen 3.7-Max 已在全球 Code Arena 编程排行榜上稳居第二,这标志着其对西方主导的 AI 格局发起了直接挑战,同时也验证了该公司在全栈、垂直整合 AI 解决方案上的巨额投资。
这一成就被阿里巴巴云计算高级副总裁刘伟光称为“中国 AI 工厂”的核心组成部分。该战略将自有模型与公司自研硬件(包括平头哥震武 M890 AI 加速器)相结合,构建了一个闭环系统,旨在为阿里巴巴在企业市场赢得竞争优势。
5 月 26 日,Qwen 3.7-Max 在 Code Arena 基准测试中获得了 1541 分,领先于 GPT-5.5 和 Gemini-3.5-Flash 等知名模型。这一成绩使阿里巴巴的编程能力仅次于 Anthropic 的 Claude 系列模型,牢牢确立了 Qwen 在全球 AI 代码生成与理解领域的顶尖地位。
对于投资者而言,这一基准测试结果不仅是一个数字,更是阿里巴巴三年来在云和 AI 基础设施领域投入的 530 亿美元已产生具竞争力的前沿产品的证明。公司能够在自研国产芯片上运行顶级模型,使其能够捕捉中国境内巨大的企业需求,特别是在获取西方硬件依然面临复杂挑战的背景下。
Qwen 3.7-Max 的故事与其运行的硬件密不可分。该模型在阿里巴巴云计算峰会上亮相,作为“AI 工厂”三件套之一,与震武 M890 AI 加速器和磐久 AL128 机架级服务器共同展出。这种软件与自有硬件的整合是阿里巴巴的核心战略优势。公司声称,尽管 M890 芯片在原始规格上落后于西方领先设计,但它在中国市场是受出口管制的英伟达芯片的“可靠替代品”。
为了证明这种集成堆栈的威力,阿里巴巴报告了一项内部演示:Qwen 3.7-Max 在震武 M890 平台上自主运行了 35 小时。运行期间,该模型进行了 1,158 次工具调用,以迭代优化其运行芯片的配套软件。虽然这些结果为自述数据,但它们展示了阿里巴巴的战略目标:创造不仅能执行任务,还能提高底层硬件效率的 AI,这是一种依赖第三方芯片的公司无法实现的递归反馈环。
Qwen 3.7-Max 的优势集中在困难、结构化的任务上。它在 Arena 排行榜的数学领域排名全球第七,并在 GPQA Diamond(研究生水平推理基准测试)中获得了 92.4 分。在一次测试中,它正确解出了一个让竞争模型死机并产生错误答案的 19 次迪克森多项式问题。这种对数学、编程和智能体能力(执行长序列动作的能力)的关注,使该模型适用于自动化软件开发和复杂财务报告等高价值企业工作流。
然而,该模型与其说是创意伙伴,不如说是一个高效的员工。在创意写作测试中,其输出被评价为“凌厉”且“高效”,但缺乏更具表现力模型的“丰富感”和“层级感”。这是一个刻意的设计选择。阿里巴巴的目标客户不是小说家,而是需要可靠工具来解决复杂逻辑问题的开发人员和企业。
尽管基准测试数据令人印象深刻,但仍有几个因素可能抑制投资者的即时热情。旗舰模型 Qwen 3.7-Max 将不会开源,延续了阿里巴巴将顶级模型变现的策略。API 的全面开放仍在推进中,定价虽然预计具有竞争力,但尚未最终确定。此外,独立分析显示,该模型的高准确率部分归功于在某些基准测试中较低的尝试率;它在同类产品中幻觉率最低,部分原因在于它在不确定时会选择不回答。
对于国际企业而言,使用阿里巴巴云服务受中国 2017 年《国家情报法》的约束。虽然目前尚无强制访问数据的记录,但对于处理敏感数据的公司来说,法律框架仍是一个结构性风险。
本文仅供参考,不构成投资建议。