Anthropic 的 Claude Code 思考深度骤降 67%

一份来自 AMD AI 总监的令人震惊的报告指称，Anthropic 的 Claude Code AI 自 2 月份以来性能出现了系统性退化，其“思考深度”骤降 67%，并导致一个团队的 API 成本爆炸式增长了 122 倍。这份发布在 GitHub 上的分析报告在开发者社区引发了轩然大波，引发了对该 AI 编程助手可靠性的质疑，并给竞争对手 OpenAI 的 Codex 带来了压力。

AMD AI 团队负责人斯特拉·洛伦佐（Stella Laurenzo）在 GitHub 问题报告中表示：“Claude 已经无法被信任去执行复杂的工程任务。”她警告说，她的团队已经转向其他服务提供商，现在“必须非常认真地对待并评估其他竞争对手”。

洛伦佐的分析基于 6,852 个会话日志，揭示了性能的急剧下滑。该模型的思考深度中值（衡量其推理过程的指标）从 2 月初的约 2,200 个字符下降到月底的仅 720 个字符。这种推理能力的崩塌伴随着编写代码前研究工作量减少了 70%，模型的“读改比”从 6.6 降至 2.0。这导致了错误的激增，模型在每三次编辑中就有一次在未读取相关文件的情况下尝试修改代码。

性能下降带来了灾难性的成本后果。洛伦佐的团队发现，根据 Bedrock Opus 的定价，其预计的每月 API 账单从 345 美元飙升至 42,121 美元——增长了 122 倍——而产生的结果却更差。该团队被迫关闭了整个智能体集群。报告认为，这种退化恰逢 Anthropic 引入“自适应思考”功能，并将默认的“努力程度”设置从高更改为中。

Anthropic 做出回应，社区持怀疑态度

一名身份为 Boris 的 Claude Code 团队成员回应称，这些更改并非意在削弱模型的底层逻辑。他解释说，隐藏模型思考过程的功能是一项 UI 更改，用户可以手动切回较高的“努力程度”设置。然而，社区中的许多开发者仍不买账，称即使在最高设置下，该模型的表现依然不尽如人意。一名用户在 Hacker News 上评论道：“问题远不止是将默认思考级别改为中等那么简单。”

开发者寻求替代方案

此事件已促使许多开发者放弃该平台，一些人公开表示已转向 OpenAI 的 Codex 或 Qwen3.5-27b 等开源模型。作为临时解决方案，部分用户明确授权模型编辑文件，并将复杂的任务拆解为更小、更易于管理的块。洛伦佐的报告呼吁 Anthropic 提高透明度，包括在 API 响应中暴露 thinking_tokens，以便用户亲自监控模型的推理深度。

本文仅供参考，不构成投资建议。