微软首款自研推理模型在企业级基准测试中挑战Anthropic和OpenAI,且不依赖蒸馏技术。
微软首款自研推理模型在企业级基准测试中挑战Anthropic和OpenAI,且不依赖蒸馏技术。

微软首款自研推理模型在企业级基准测试中挑战Anthropic和OpenAI,且不依赖蒸馏技术。
微软公司周二在Build 2026大会上发布了MAI-Thinking-1,这是其首款自研推理模型,拥有350亿活跃参数,直接在企业AI市场挑战Anthropic的Claude和OpenAI的GPT系列。
"MAI-Thinking-1的设计目标在于擅长处理复杂的多步骤指令、长上下文推理以及代码生成,"微软开发者CMO兼GitHub首席运营官Kyle Daigle在主题演讲前的媒体简报会上表示。
该模型完全基于商业授权数据从头构建,未使用来自第三方模型的蒸馏技术,拥有12.8万个token的上下文窗口。据微软介绍,独立评估机构认为其表现优于Anthropic的Claude Sonnet 4.6,在SWE Bench Pro编码基准测试中与Claude Opus 4.6不相上下。该公司还推出了另外六款模型,涵盖图像生成、转录、语音和代码等领域。
此次发布标志着微软在自研AI领域迈出了最深远的步伐,降低了对OpenAI的依赖——此前两家公司已重新谈判了合作关系。微软股价目前约为远期收益的33倍,如果自研模型能够降低该公司已承诺的约130亿美元年度AI基础设施成本,股价有望受益。
完整模型家族成型
除推理模型外,微软还发布了MAI-Image-2.5及其Flash变体,用于文生图和图生图编辑,目前已上线PowerPoint和OneDrive。MAI-Transcribe-1.5据称比竞品转录模型快五倍,将支持43种语言。MAI-Voice-2及其Flash变体新增15种语言并配备多种语音选项。MAI-Code-1-Flash是一款推理高效的编码模型,已直接集成到GitHub Copilot和Visual Studio Code中。
所有模型最终将通过Microsoft Foundry和一个名为MAI Playground的新环境提供。产品线的广度显示出微软意图覆盖完整的AI技术栈——从推理和编码到多模态生成——而非依赖单一旗舰模型。
硬件与智能体延伸触角
微软还发布了Scout,这是一款主动式个人智能体,可通过Teams和Outlook处理日程安排、会议准备和日常任务,无需等待用户输入。Scout周二起向Frontier客户开放。在硬件方面,Surface RTX Spark Dev Box搭载英伟达RTX Spark芯片,可提供高达1 petaflop的AI算力和128GB统一内存,能够在本地运行参数高达1200亿的模型。该产品将于今年晚些时候在美国上市。
微软通过Microsoft Execution Containers(一种现已进入预览版的新沙盒系统)将Windows重新定位为智能体原生运行环境,并使其科学研究平台Microsoft Discovery正式全面上线。
微软向模型开发的垂直整合减少了对OpenAI的依赖——两者最近的合作关系已进行重组,以松绑两家公司之间的联系。如果MAI-Thinking-1能够兑现其基准测试的宣称,可能会将企业AI采购从第三方API提供商转向微软的Azure平台。英伟达的H100和B200 GPU支撑了微软大部分训练基础设施,无论哪款模型胜出,英伟达都将从持续的资本支出增长中受益。微软Azure AI收入在最近一个季度同比增长157%,自研模型可通过降低每token推理成本来改善利润率。
本文仅供参考,不构成投资建议。