Anthropic 发布 Claude 4.7：编程能力飙升，但长文本性能缩减 46%

Anthropic 发布了 Claude Opus 4.7，其在软件工程基准测试中得分领先，但该模型的长文本召回率（long-context recall）暴跌了 46 个百分点以上，这标志着其战略正从追求全能表现转向专业化的企业工具。

Anthropic 分享的一份声明中，Hex 的首席技术官表示：“这是一个更智能、更高效的 Opus 4.6。低投入下的 Opus 4.7 大约相当于中等投入下的 Opus 4.6。”

新模型在 SWE-bench Pro 编程测试中得分 64.3%，较前代产品的 53.4% 有显著提升，并领先于 OpenAI GPT-5.4 的 57.7%。然而，在 MRCR v2 长文本基准测试中，其得分从 Opus 4.6 的 78.3% 崩塌至 32.2%。这是由于采用了新的分词器（tokenizer）所致，该分词器同时也增加了用户的实际使用成本。

这种权衡表明，据报道年化收入率已达 300 亿美元的 Anthropic 正在将高利润的企业编程和智能体工作流（agentic workflow）市场置于昂贵的超大上下文窗口竞争之上。对于开发者而言，这意味着获得了一个更强大但可能更昂贵的工具，但它不再适合长文档分析——而这曾是该公司的领先领域。

有针对性的升级

Opus 4.7 并非全面的改进，而是有针对性的升级。该模型的提升集中在对企业开发者至关重要的领域，据报道，这一细分市场在 2 月份为 Claude Code 带来了 25 亿美元的年化收入。在衡量主流 AI 代码编辑器性能的 CursorBench 测试中，Opus 4.7 得分为 70%，较前代提升了 12 个百分点。早期合作伙伴乐天（Rakuten）报告称，新模型解决生产任务的效率是 Opus 4.6 的三倍。

视觉能力也得到了大幅提升。在 XBOW 视觉基准测试中，Opus 4.7 的准确率从前代模型的 54.5% 跃升至 98.5%。这一进步，结合图像分辨率的三倍提升，使得读取密集图表或截图等复杂视觉任务达到了生产环境所需的可靠水平，这是计算机使用代理（computer-use agents）的核心要求。

但这些改进是有代价的。该模型从大型文档中召回信息的能力——这是此前 Claude 版本的招牌特色——已被大幅削弱。在长文本基准测试中 46 个百分点的下滑，对于法律和研究等依赖分析长篇文本的用户来说，Opus 4.7 是一个显著的退步。Anthropic 将这一变化归因于处理文本方式不同的新分词器。

隐藏成本

虽然 Anthropic 宣布其标称价格保持不变，即每百万输入 token 5 美元，每百万输出 token 25 美元，但新分词器意味着同样的文本现在会产生 1.0 到 1.35 倍的 token。此外，新的默认“xhigh”努力级别会消耗更多算力，这导致许多用户的实际成本切身增加。

此次发布被一些人视为一种战略策略。Anthropic 明确表示，Opus 4.7 的“综合能力”不如其最强大的模型——尚未发布的 Claude Mythos Preview，后者仅提供给谷歌和微软等少数合作伙伴用于网络安全研究。通过削减长文本召回和网络搜索等功能（Opus 4.7 在这些方面目前落后于 GPT-5.4 和 Gemini 3.1 Pro），Anthropic 似乎正在将资源集中在变现路径最清晰的商业应用上。

对于投资者和企业客户而言，Opus 4.7 是 AI 市场走向成熟的明确信号。在每个基准测试中追逐“最强模型”的时代可能正在让位于针对特定高价值任务设计的专业化模型阶段。虽然 Opus 4.7 扩大了 Anthropic 在利润丰厚的编程和智能体工作流领域的领先地位，但其刻意的权衡意味着客户现在评估模型时，不仅要看其强项，还要看其有意设计的弱点。

本文仅供参考，不构成投资建议。