MiniMax 开源其 M2.7 模型，该模型曾使其自身性能提升 30%

MiniMax 已开源其 M2.7 模型，这是行业内首个积极参与并改进自身开发周期的智能体 AI，其性能达到了与领先专有模型相当的水平。

MiniMax 正式开源了 MiniMax M2.7，这是其能力最强的混合专家 (MoE) 模型，现已在 Hugging Face 上公开发布权重。该模型最初通过参与自身开发实现了 30% 的性能增长，在 SWE-Pro 软件工程基准测试中得分 56.22%，与 GPT-5.3-Codex 持平，标志着开源 AI 市场开启了新的竞争战线。

“为了测试自主改进的边界，我们要求 MiniMax M2.7 在内部脚手架上优化模型的编程性能，”该公司在一篇技术博客文章中表示。“它完全自主运行，执行了 100 多轮‘分析失败轨迹 → 规划更改 → 修改脚手架代码 → 运行评估 → 比较结果 → 决定保留或撤销更改’的迭代循环。”

这一自我演进过程在内部评估中带来了 30% 的性能提升。在公共基准测试中，M2.7 取得了开源模型的顶尖成绩，在 Terminal Bench 2 上得分 57.0%，在 VIBE-Pro 仓库级代码生成测试中得分 55.6%，几乎与 Anthropic 的 Opus 4.6 持平。该模型是与包括英伟达、华为昇腾和摩尔线程在内的硬件制造商合作开发的，确保了广泛的初始兼容性。

此次发布挑战了开源模型与 OpenAI 和 Anthropic 等公司的专有模型之间的性能差距。通过开源一个能够自我改进并在复杂的真实工程任务中表现出色的模型，MiniMax 对现有巨头施加了压力，并为开发者提供了一个强大的、可免费获取的工具，这可能会促使企业 AI 采购从昂贵的基于 API 的系统转向其他方案。

智能体工作的新架构

MiniMax M2.7 是该公司 M2 系列混合专家 (MoE) 模型的一部分。这种架构比稠密模型更高效，因为推理期间仅激活参数的一个子集，使其运行更快且成本更低。该模型围绕三个核心能力构建：专业软件工程、专业办公以及原生多智能体协作（MiniMax 称之为“智能体团队”）。这些能力使 M2.7 能够利用复杂技能和动态工具搜索来完成高度复杂的生产力任务。

在真实工程中表现卓越

该模型在模拟真实工程挑战的基准测试中的表现使其脱颖而出。在涵盖日志分析、错误排查和代码安全审查等任务的 SWE-Pro 上，M2.7 的 56.22% 准确率与 GPT-5.3-Codex 相匹配。这证明了它能够理解软件系统的运行逻辑，而不仅仅是生成代码。MiniMax 团队报告称，该能力已在内部用于将在线生产系统事故的恢复时间缩短至三分钟以内，模型可自主执行可观测性分析、数据库查询并提交合并请求。

跨越工程：专业办公与财务技能

除了工程实力外，MiniMax M2.7 还瞄准了专业办公任务。在衡量 45 个模型领域专业知识的 GDPval-AA 评估中，M2.7 获得了 1495 的 ELO 分数，在所有开源模型中排名最高，仅次于 Opus 4.6 和 GPT-5.4 等顶尖专有模型。在金融领域，该模型可以担任初级分析师，能够自主阅读年报、构建收入预测模型并撰写研究报告。这种广泛的技能组合使其成为定位于企业和专业用途模型的直接竞争对手。开源一个具备这些经过验证能力的模型可能会加速各行业对智能体 AI 工作流的采用，从而影响那些依赖销售闭源系统访问权限的公司的业务模式。

本文仅供参考，不构成投资建议。