Anthropic 的 Claude AI 據報性能下降 67%，引發用戶強烈抵制

Anthropic 正面臨企業用戶的強烈抵制，有指控稱其旗艦模型 Claude Opus 4.6 已被秘密「削弱」（nerfed），即能力下降。一項分析顯示，該模型在處理複雜編程任務時的推理深度下降了 67%。這場爭議可能會侵蝕這家估值 3800 億美元的初創公司的信任度，尤其是在它與 OpenAI 的企業服務展開競爭並據傳準備 IPO 之際。

「當思維變得膚淺時，模型往往會採取成本最低的行動，」AMD AI 高級總監 Stella Laurenzo 在一份廣為流傳的 GitHub 分析報告中寫道，「修改代碼不閱讀全文、在完成前停止、推卸錯誤責任，並選擇最簡單而非最正確的解決方案。」

用戶抱怨的核心（已在 GitHub、Reddit 和 X 上蔓延）是 Claude 在處理其最初備受讚譽的複雜多步工作流時變得不再可靠。Laurenzo 對 6800 多個 Claude Code 會話的分析發現，從 2 月下旬到 3 月初，模型的「每次編輯讀取量」（reads-per-edit）——即它在編寫代碼前考慮的上下文指標——從 6.6 暴跌至 2.0。對此，Anthropic 的 Claude Code 負責人 Boris Cherny 表示，公司並未秘密降低模型性能，而是為了平衡大多數用戶的智能、延遲和成本，將預設「努力」級別更改為「中等」。

這一爭議凸顯了「代幣經濟」不透明的本質，即客戶為看似標準的 AI 處理單位付費，卻無法獲得交付智能質量的保證。雖然代幣價格在三年內下降了約 300 倍，但企業 AI 預算卻變得越來越難以控制。Mavvrik 和 Benchmarkit 的一項調查發現，84% 的企業報告 AI 成本對毛利率的侵蝕超出預期，只有 15% 的企業能將預算偏差控制在 10% 以內。快取等技術因素使問題更加複雜；一項分析顯示，Claude Code 快取行為的變化可能會使輸入成本增加 5.7 倍。

「縮減增價」問題

用戶反抗的核心情緒是，他們正以同樣的價格購買能力下降的產品，有人稱之為「AI 縮減增價」（shrinkflation）。在開發者 Om Patel 在 X 上發佈的一條病毒式帖子總結了這種感知到的能力下降（即 67% 的性能暴跌）後，該問題引起了廣泛關注，這與 Laurenzo 的 GitHub 分析結果相呼應。

Anthropic 對此予以反駁，將感知的變化歸因於產品和界面選擇，而非秘密降級。Cherny 指出，2 月 9 日，Opus 4.6 預設啟用了「自適應思維」，3 月 3 日，預設努力級別被設置為「中等」。雖然 Claude Code 終端用戶可以手動將努力程度設置為「高」，但其他平台上的專業版（Pro）和企業版（Enterprise）用戶則無法做到。針對這一抵制，Cherny 表示公司將測試把團隊版和企業版用戶的預設設置改為「高努力」。

信任與算力問題

這場辯論發生之際，Anthropic 需求激增，導致高峰時段的使用限制更加嚴格，並引發了關於該公司可能面臨算力短缺的猜測。據報導，OpenAI 的收入負責人在一份內部備忘錄中聲稱，Anthropic 因未獲得足夠的算力容量而犯下了「戰略性失誤」。Anthropic 否認其為了管理需求而降低模型性能。

這種情況為一家標榜自己比競爭對手更透明、更符合用戶利益的公司製造了嚴重的信任缺口。隨著 Anthropic 與 OpenAI 的 Codex 等產品競爭並著眼於潛在的 IPO，即便是為了平衡成本而暗中降低模型質量的認知，也可能損害其在企業開發者心目中的地位，而這些人正是其增長的關鍵。該公司現在的挑戰是如何協調固定的代幣價格與其包含的「智能」的可變價值。

本文僅供參考，不構成投資建議。