AnthropicのClaude Code、思考の深さが67%急落

AMDのAIディレクターによる衝撃的なレポートは、AnthropicのAI「Claude Code」のパフォーマンスが2月以降、体系的に劣化していると主張しています。それによると、「思考の深さ」は67%急落し、あるチームではAPIコストが122倍に爆増しました。GitHub上で公開されたこの分析は、開発者コミュニティに激震を走らせており、AIコーディングアシスタントの信頼性に疑問を投げかけるとともに、競合するOpenAIのCodexへの圧力となっています。

AMDのAIチームのリーダーであるステラ・ロレンゾ氏は、GitHubのレポートの中で「Claudeは複雑なエンジニアリングタスクを実行する上で信頼できなくなった」と述べています。彼女は、自身のチームがすでに他のサービスプロバイダーに切り替えたことを明かし、「他の競合他社を非常に真剣に検討し、評価する必要がある」と警告しました。

ロレンゾ氏の分析は6,852のセッションログに基づいており、パフォーマンスの急激な低下を浮き彫りにしています。推論プロセスの尺度であるモデルの思考の深さの中央値は、2月初旬の約2,200文字から、月末にはわずか720文字にまで減少しました。この推論能力の崩壊に伴い、コード記述前のリサーチ工数は70%減少し、モデルの「読み取り・修正」比率は6.6から2.0に低下しました。これによりエラーが急増し、3回に1回の編集で、関連ファイルを読まずにコードを修正しようとする事態が発生しました。

パフォーマンスの低下は、壊滅的なコスト増を招きました。ロレンゾ氏のチームは、Bedrock Opusの価格に基づく月間推定API請求額が、345ドルから42,121ドルへと122倍に跳ね上がったことを確認しました。成果が悪化しているにもかかわらず、コストだけが爆増したのです。チームはエージェントクラスター全体の停止を余儀なくされました。レポートは、この劣化がAnthropicによる「適応型思考（adaptive thinking）」機能の導入や、デフォルトの「努力（effort）」設定が「高」から「中」に変更された時期と一致していることを示唆しています。

Anthropicの回答、コミュニティは懐疑的

Claude CodeチームのメンバーであるBoris氏は、これらの変更はモデルの根本的なロジックを劣化させる意図はなかったと回答しました。モデルの思考プロセスを非表示にする機能はUIの変更であり、ユーザーは手動で「努力」設定を「高」に戻すことができると説明しています。しかし、コミュニティの多くの開発者は納得しておらず、最高の設定にしてもパフォーマンスは以前の水準を下回っていると主張しています。Hacker Newsのあるユーザーは、「問題は単にデフォルトの思考レベルが中に変更されたこと以上のものだ」とコメントしています。

代替案を模索する開発者たち

この事件を受けて、多くの開発者がプラットフォームを離脱しており、OpenAIのCodexやQwen3.5-27bなどのオープンソースモデルに切り替えたと公言するユーザーも現れています。一時的な解決策として、モデルにファイル編集の明示的な権限を与えたり、複雑なタスクをより小さく管理しやすい単位に分割したりしているユーザーもいます。ロレンゾ氏のレポートは、Anthropicに対し、APIレスポンスで thinking_tokens を公開し、ユーザーが自らモデルの推論の深さを監視できるようにするなど、透明性の向上を求めています。

本記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。