MiniMax发布M3旗舰模型,其编程表现在SWE-Bench Pro上超越GPT-5.5,并采用新型稀疏注意力机制支持百万Token上下文窗口,同时具备原生多模态能力——公司正在推进上海科创板双重上市,此前其港股股价已累计飙升409%。
MiniMax发布M3旗舰模型,其编程表现在SWE-Bench Pro上超越GPT-5.5,并采用新型稀疏注意力机制支持百万Token上下文窗口,同时具备原生多模态能力——公司正在推进上海科创板双重上市,此前其港股股价已累计飙升409%。

MiniMax于周一发布其M3旗舰模型,声称该模型在SWE-Bench Pro基准测试中展现出顶尖的编程性能,超越GPT-5.5。这家中国AI初创公司正寻求在上海科创板进行二次上市,此前其港股股价自1月以来已飙升409%。
MiniMax在一份声明中表示,该模型在SWE-Bench Pro(一项衡量真实世界软件工程任务的基准测试)上得分领先于OpenAI的GPT-5.5和谷歌的Gemini 3.1 Pro,仅落后于Anthropic的Claude Opus 4.7。在面向自主智能体的端到端评估Claw-Eval中,M3在所有测试模型中取得了最高分。
" M3是唯一一个同时提供前沿编程能力、百万Token上下文窗口和原生多模态处理能力的开源模型,"MiniMax在公告中表示。
三大技术树,一个模型
M3引入了MiniMax稀疏注意力机制(MSA),这是一种新型注意力架构,旨在解决长上下文处理中的二次计算成本问题。该机制采用两阶段方法:先通过轻量级索引注意力阶段,利用块最大池化选择前k个相关KV块,随后仅对这些块进行完整的稀疏注意力计算。据MiniMax介绍,在百万Token规模下,M3的单Token计算量仅为上一代模型的三十分之一,预填充速度提升9.7倍,解码速度提升15.6倍。
公司表示,M3从预训练第一步开始就使用交错文本-图像数据进行训练,其数据流水线经过重建,可处理高达百万亿Token的数据量。MiniMax今年早些时候已开源M2.5和M2.7模型,并表示M3的权重和技术报告将在10天内发布。
为展示该模型的综合能力,MiniMax让M3独立复现一篇关于微调过程中学习动力学的ICLR 2025杰出论文奖获奖论文。该模型在无需人工干预的情况下运行约12小时,生成了18次代码提交和23张实验图表。它成功复现了论文的核心实验,包括DPO训练中观察到的挤压效应以及所提出的Extend缓解方法的有效性。
在另一项测试中,M3对英伟达Hopper架构上的FP8矩阵乘法内核进行了优化,从一个无法运行的Triton框架开始。在24小时内,该模型提交了147项基准测试和1,959次工具调用,将Hopper FP8峰值硬件利用率从7.6%提升至71.3%——实现9.4倍加速。大多数竞品模型在30次提交内便停止进步;而M3的最佳结果出现在第145次提交。
IPO动能与财务背景
此次模型发布前几天,MiniMax于5月29日向上海证监局提交了上市辅导备案报告,启动了A股IPO进程,由中信证券担任辅导机构。该公司于1月在港交所上市,发行价为每股165港元,募资约6.19亿美元。其股价于5月29日收报840港元,公司估值达2634.5亿港元,约合338亿美元。
根据5月28日披露的业务数据,截至5月底,MiniMax的年化经常性收入已超过3亿美元,两个月内增长逾一倍。该公司公布的2025年营收为7900万美元,毛利率为25.4%,调整后净亏损为2.5亿美元。其企业及开发者客户超过100万,全球用户约3亿。
在上海上市将使MiniMax能够更深层次地进入国内资本市场,而北京方面已释放信号,希望本国AI领军企业在本土获得融资。该公司与智谱、月之暗面等同行一道,在中国AI行业竞相将技术信誉转化为市值的浪潮中推进上市计划。
MiniMax股价较IPO发行价已上涨逾400%,估值较大多数全球AI同行存在显著溢价。该公司将于6月8日被纳入恒生科技指数。M3的基准测试表现能否支撑这一估值,以及科创板上市能否以类似条件推进,将取决于该模型能否将技术优势大规模转化为企业营收。
本文仅供信息参考,不构成投资建议。