MiniMax 開源其 M2.7 模型，該模型曾使其自身性能提升 30%

MiniMax 已開源其 M2.7 模型，這是行業內首個積極參與並改進自身開發週期的智能體 AI，其性能達到了與領先專有模型相當的水平。

MiniMax 正式開源了 MiniMax M2.7，這是其能力最強的混合專家 (MoE) 模型，現已在 Hugging Face 上公開發布權重。該模型最初通過參與自身開發實現了 30% 的性能增長，在 SWE-Pro 軟件工程基準測試中得分 56.22%，與 GPT-5.3-Codex 持平，標誌著開源 AI 市場開啟了新的競爭戰線。

「為了測試自主改進的邊界，我們要求 MiniMax M2.7 在內部腳手架上優化模型的編程性能，」該公司在一篇技術博客文章中表示。「它完全自主運行，執行了 100 多輪『分析失敗軌跡 → 規劃更改 → 修改腳手架代碼 → 運行評估 → 比較結果 → 決定保留或撤銷更改』的迭代循環。」

這一自我演進過程在內部評估中帶來了 30% 的性能提升。在公共基準測試中，M2.7 取得了開源模型的頂尖成績，在 Terminal Bench 2 上得分 57.0%，在 VIBE-Pro 倉庫級代碼生成測試中得分 55.6%，幾乎與 Anthropic 的 Opus 4.6 持平。該模型是與包括英偉達、華為昇騰和摩爾線程在內的硬件製造商合作開發的，確保了廣泛的初始兼容性。

此次發布挑戰了開源模型與 OpenAI 和 Anthropic 等公司的專有模型之間的性能差距。通過開源一個能夠自我改進並在複雜的真實工程任務中表現出色的模型，MiniMax 對現有巨頭施加了壓力，並為開發者提供了一個強大的、可免費獲取的工具，這可能會促使企業 AI 採購從昂貴的基於 API 的系統轉向其他方案。

智能體工作的新架構

MiniMax M2.7 是該公司 M2 系列混合專家 (MoE) 模型的一部分。這種架構比稠密模型更高效，因為推理期間僅激活參數的一個子集，使其運行更快且成本更低。該模型圍繞三個核心能力構建：專業軟件工程、專業辦公以及原生多智能體協作（MiniMax 稱之為「智能體團隊」）。這些能力使 M2.7 能夠利用複雜技能和動態工具搜索來完成高度複雜的生產力任務。

在真實工程中表現卓越

該模型在模擬真實工程挑戰的基準測試中的表現使其脫穎而出。在涵蓋日誌分析、錯誤排查和代碼安全審查等任務的 SWE-Pro 上，M2.7 的 56.22% 準確率與 GPT-5.3-Codex 相匹配。這證明了它能夠理解軟件系統的運行邏輯，而不僅僅是生成代碼。MiniMax 團隊報告稱，該能力已在內部用於將在線生產系統事故的恢復時間縮短至三分鐘以內，模型可自主執行可觀測性分析、數據庫查詢並提交合併請求。

跨越工程：專業辦公與財務技能

除了工程實力外，MiniMax M2.7 還瞄準了專業辦公任務。在衡量 45 個模型領域專業知識的 GDPval-AA 評估中，M2.7 獲得了 1495 的 ELO 分數，在所有開源模型中排名最高，僅次於 Opus 4.6 和 GPT-5.4 等頂尖專有模型。在金融領域，該模型可以擔任初級分析師，能夠自主閱讀年報、構建收入預測模型並撰寫研究報告。這種廣泛的技能組合使其成為定位於企業和專業用途模型的直接競爭對手。開源一個具備這些經過驗證能力的模型可能會加速各行業對智能體 AI 工作流的採用，從而影響那些依賴銷售閉源系統訪問權限的公司的業務模式。

本文僅供參考，不構成投資建議。