Anthropic 的 Claude Code 思考深度驟降 67%

一份來自 AMD AI 總監的令人震驚的報告指稱，Anthropic 的 Claude Code AI 自 2 月份以來性能出現了系統性退化，其「思考深度」驟降 67%，並導致一個團隊的 API 成本爆炸式增長了 122 倍。這份發佈在 GitHub 上的分析報告在開發者社群引發了軒然大波，引發了對該 AI 編程助手可靠性的質疑，並給競爭對手 OpenAI 的 Codex 帶來了壓力。

AMD AI 團隊負責人斯特拉·洛倫佐（Stella Laurenzo）在 GitHub 問題報告中表示：「Claude 已經無法被信任去執行複雜的工程任務。」她警告說，她的團隊已經轉向其他服務提供商，現在「必須非常認真地對待並評估其他競爭對手」。

洛倫佐的分析基於 6,852 個會話日誌，揭示了性能的急劇下滑。該模型的思考深度中值（衡量其推理過程的指標）從 2 月初的約 2,200 個字符下降到月底的僅 720 個字符。這種推理能力的崩塌伴隨著編寫代碼前研究工作量減少了 70%，模型的「讀改比」從 6.6 降至 2.0。這導致了錯誤的激增，模型在每三次編輯中就有一次在未讀取相關文件的情況下嘗試修改代碼。

性能下降帶來了災難性的成本後果。洛倫佐的團隊發現，根據 Bedrock Opus 的定價，其預計的每月 API 帳單從 345 美元飆升至 42,121 美元——增長了 122 倍——而產生的結果卻更差。該團隊被迫關閉了整個智能體集群。報告認為，這種退化恰逢 Anthropic 引入「自適應思考」功能，並將默認的「努力程度」設置從高更改為中。

Anthropic 做出回應，社群持懷疑態度

一名身份為 Boris 的 Claude Code 團隊成員回應稱，這些更改並非意在削弱模型的底層邏輯。他解釋說，隱藏模型思考過程的功能是一項 UI 更改，用戶可以手動切回較高的「努力程度」設置。然而，社群中的許多開發者仍不買帳，稱即使在最高設置下，該模型的表現依然不盡如人意。一名用戶在 Hacker News 上評論道：「問題遠不止是將默認思考級別改為中等那麼簡單。」

開發者尋求替代方案

此事件已促使許多開發者放棄該平台，一些人公開表示已轉向 OpenAI 的 Codex 或 Qwen3.5-27b 等開源模型。作為臨時解決方案，部分用戶明確授權模型編輯文件，並將複雜的任務拆解為更小、更易於管理的塊。洛倫佐的報告呼吁 Anthropic 提高透明度，包括在 API 響應中暴露 thinking_tokens，以便用戶親自監控模型的推理深度。

本文僅供參考，不構成投資建議。