MiniMax推出M3旗艦模型,在SWE-Bench Pro基準測試中編碼表現超越GPT-5.5;該模型採用新型稀疏注意力機制,支援100萬token上下文窗口,並具備原生多模態能力。與此同時,公司正尋求在上海科創板雙重上市,其港股股價自年初以來已飆漲409%。
MiniMax推出M3旗艦模型,在SWE-Bench Pro基準測試中編碼表現超越GPT-5.5;該模型採用新型稀疏注意力機制,支援100萬token上下文窗口,並具備原生多模態能力。與此同時,公司正尋求在上海科創板雙重上市,其港股股價自年初以來已飆漲409%。

MiniMax於週一發佈其旗艦模型M3,宣稱該模型在SWE-Bench Pro基準測試中展現頂尖編碼能力,超越GPT-5.5。這家中國AI新創公司在港股股價自1月以來飆漲409%後,正尋求在上海科創板進行第二上市。
MiniMax在聲明中指出,M3在SWE-Bench Pro(衡量真實世界軟體工程任務的基準測試)上得分領先OpenAI的GPT-5.5及Google的Gemini 3.1 Pro,僅次於Anthropic的Claude Opus 4.7。在針對自主代理的端到端評估Claw-Eval中,M3在所有受測模型中取得了最高分。
「M3是唯一同時提供前沿編碼能力、100萬token上下文窗口及原生多模態處理能力的開源模型,」MiniMax在公告中表示。
三大技術樹,一款模型
M3引入了MiniMax Sparse Attention(MSA),這是一種全新的注意力架構,旨在解決長上下文處理中的二次計算成本問題。該機制採用兩階段方法:首先是輕量級索引注意力階段,通過區塊最大池化選取前k個相關KV區塊,隨後僅對這些區塊進行完整的稀疏注意力計算。據MiniMax表示,在100萬token的規模下,M3每個token的計算量僅為前代的二十分之一,預填充速度提升9.7倍,解碼速度提升15.6倍。
該公司表示,M3從預訓練的第一步開始就使用交錯文本-圖像數據進行訓練,並重建了數據管道以處理高達100兆token的數據。MiniMax今年早些時候已開源M2.5和M2.7模型,並表示M3的權重和技術報告將在10天內發布。
為了展示該模型的綜合能力,MiniMax讓M3獨立重現一篇獲獎論文——ICLR 2025傑出論文獎關於微調過程中學習動態的研究。該模型在無人干預的情況下運行了約12小時,產生了18次提交和23張實驗圖表。它成功復現了論文的核心實驗,包括DPO訓練中觀察到的擠壓效應及所提出的Extend緩解方法的有效性。
在另一項測試中,M3優化了Nvidia Hopper架構上的FP8矩陣乘法內核,從一個無法運行的Triton骨架開始。在24小時內,該模型提交了147個基準測試和1,959次工具調用,將Hopper FP8峰值硬體利用率從7.6%提升至71.3%——加速達9.4倍。大多數競爭模型在30次提交內便停止進展;而M3的最佳結果出現在第145次提交。
IPO動能與財務背景
此次模型發佈前數日,MiniMax已於5月29日向上海證監局提交上市輔導備案報告,正式啟動A股IPO進程,由中信證券擔任輔導機構。該公司於1月在港股上市,發行價每股165港元,募資約6.19億美元。其股價於5月29日收報840港元,市值達2,634.5億港元,約合338億美元。
根據5月28日披露的業務數據,截至5月底,MiniMax的年化經常性收入已超過3億美元,兩個月內翻倍有餘。該公司報告2025年營收為7,900萬美元,毛利率25.4%,經調整淨虧損2.5億美元。其企業及開發者客戶超過100萬,全球用戶約3億人。
上海上市將使MiniMax在中國政府明確表示希望本土AI龍頭在境內融資的背景下,打通更深層次的國內資本市場。該公司與智譜、Moonshot等同行一道,在中國AI產業爭相將技術實力轉化為市值的浪潮中,紛紛尋求公開上市。
MiniMax股價較IPO發行價已累計上漲逾400%,估值較大多數全球同業存在顯著溢價。該公司將於6月8日納入恒生科技指數。M3的基準測試表現能否支撐這一估值——以及科創板上市能否以類似條件推進——將取決於該模型能否將技術優勢大規模轉化為企業收入。
本文僅供資訊參考,不構成投資建議。