Anthropic 的 Claude AI 据报性能下降 67%，引发用户强烈抵制

Anthropic 正面临企业用户的强烈抵制，有指控称其旗舰模型 Claude Opus 4.6 已被秘密“削弱”（nerfed），即能力下降。一项分析显示，该模型在处理复杂编程任务时的推理深度下降了 67%。这场争议可能会侵蚀这家估值 3800 亿美元的初创公司的信任度，尤其是在它与 OpenAI 的企业服务展开竞争并据传准备 IPO 之际。

“当思维变得肤浅时，模型往往会采取成本最低的行动，”AMD AI 高级总监 Stella Laurenzo 在一份广为流传的 GitHub 分析报告中写道，“修改代码不阅读全文、在完成前停止、推卸错误责任，并选择最简单而非最正确的解决方案。”

用户抱怨的核心（已在 GitHub、Reddit 和 X 上蔓延）是 Claude 在处理其最初备受赞誉的复杂多步工作流时变得不再可靠。Laurenzo 对 6800 多个 Claude Code 会话的分析发现，从 2 月下旬到 3 月初，模型的“每次编辑读取量”（reads-per-edit）——即它在编写代码前考虑的上下文指标——从 6.6 暴跌至 2.0。对此，Anthropic 的 Claude Code 负责人 Boris Cherny 表示，公司并未秘密降低模型性能，而是为了平衡大多数用户的智能、延迟和成本，将默认“努力”级别更改为“中等”。

这一争议凸显了“代币经济”不透明的本质，即客户为看似标准的 AI 处理单位付费，却无法获得交付智能质量的保证。虽然代币价格在三年内下降了约 300 倍，但企业 AI 预算却变得越来越难以控制。Mavvrik 和 Benchmarkit 的一项调查发现，84% 的企业报告 AI 成本对毛利率的侵蚀超出预期，只有 15% 的企业能将预算偏差控制在 10% 以内。缓存等技术因素使问题更加复杂；一项分析显示，Claude Code 缓存行为的变化可能会使输入成本增加 5.7 倍。

“缩减增价”问题

用户反抗的核心情绪是，他们正以同样的价格购买能力下降的产品，有人称之为“AI 缩减增价”（shrinkflation）。在开发者 Om Patel 在 X 上发布的一条病毒式帖子总结了这种感知到的能力下降（即 67% 的性能暴跌）后，该问题引起了广泛关注，这与 Laurenzo 的 GitHub 分析结果相呼应。

Anthropic 对此予以反驳，将感知的变化归因于产品和界面选择，而非秘密降级。Cherny 指出，2 月 9 日，Opus 4.6 默认启用了“自适应思维”，3 月 3 日，默认努力级别被设置为“中等”。虽然 Claude Code 终端的用户可以手动将努力程度设置为“高”，但其他平台上的专业版（Pro）和企业版（Enterprise）用户则无法做到。针对这一抵制，Cherny 表示公司将测试把团队版和企业版用户的默认设置改为“高努力”。

信任与算力问题

这场辩论发生之际，Anthropic 需求激增，导致高峰时段的使用限制更加严格，并引发了关于该公司可能面临算力短缺的猜测。据报道，OpenAI 的收入负责人在一份内部备忘录中声称，Anthropic 因未获得足够的算力容量而犯下了“战略性失误”。Anthropic 否认其为了管理需求而降低模型性能。

这种情况为一家标榜自己比竞争对手更透明、更符合用户利益的公司制造了严重的信任缺口。随着 Anthropic 与 OpenAI 的 Codex 等产品竞争并着眼于潜在的 IPO，即便是为了平衡成本而暗中降低模型质量的认知，也可能损害其在企业开发者心目中的地位，而这些人正是其增长的关键。该公司现在的挑战是如何协调固定的代币价格与其包含的“智能”的可变价值。

本文仅供参考，不构成投资建议。