AnthropicがClaude 4.7をリリース、コーディング性能向上の一方でコンテキストは46%削減

Anthropicは、ソフトウェアエンジニアリングのベンチマークでトップスコアを記録したClaude Opus 4.7をリリースしました。しかし、同モデルの長文コンテキストの想起能力（long-context recall）は46ポイント以上も急落しており、汎用的なパフォーマンスから専門化された企業向けツールへと戦略をシフトしたことを示唆しています。

Anthropicが共有した声明の中で、HexのCTOは「よりインテリジェントで効率的なOpus 4.6だ」と述べ、「低エフォート設定のOpus 4.7は、中エフォート設定のOpus 4.6とほぼ同等である」と指摘しました。

新モデルは、コーディングテストのSWE-bench Proで64.3%を記録し、前モデルの53.4%から大幅に向上、OpenAIのGPT-5.4の57.7%を大きく上回りました。しかし、長文コンテキストのベンチマークであるMRCR v2では、Opus 4.6の78.3%から32.2%へとスコアが崩落しました。これは、ユーザーの実質的なコスト増も招く新しいトークナイザー（tokenizer）を導入した直接的な結果です。

このトレードオフは、年換算売上高が300億ドルに達したと報じられているAnthropicが、コストのかかる最大コンテキストウィンドウの競争よりも、利益率の高い企業向けコーディングやエージェント型ワークフロー（agentic workflow）市場を優先していることを示しています。開発者にとっては、より強力であるものの、潜在的に高価で、かつて同社がリードしていた長文ドキュメント分析には適さないツールになったことを意味します。

ターゲットを絞ったアップグレード

Opus 4.7は全面的な改善ではなく、ターゲットを絞ったアップグレードです。モデルの向上は、企業開発者にとって重要な領域に集中しています。この市場セグメントにより、Claude Codeの2月の年換算売上高は25億ドルに達したと報じられています。人気のAIコードエディタでのパフォーマンスを測定するCursorBenchでは、Opus 4.7は前モデルから12ポイント上昇の70%を記録しました。初期パートナーである楽天は、新モデルがOpus 4.6の3倍のプロダクション・タスクを解決すると報告しています。

ビジョン能力も大幅に強化されました。視覚的ベンチマークのXBOWにおいて、Opus 4.7の精度は前モデルの54.5%から98.5%へと飛躍しました。画像解像度の3倍向上と相まって、複雑な図表やスクリーンショットの読み取りといった視覚的タスクが、コンピュータ操作エージェントの重要な要件であるプロダクション環境に耐えうる信頼性に達しました。

これらの改善には代償が伴います。以前のClaudeバージョンの特徴であった、膨大なドキュメントから情報を想起する能力は大幅に制限されました。長文コンテキストのベンチマークにおける46ポイントの低下は、広範なテキスト分析に依存する法務や研究などの分野のユーザーにとって、Opus 4.7が大きな後退であることを意味します。Anthropicは、この変更を、テキストの処理方法が異なる新しいトークナイザーによるものだとしています。

隠れたコスト

Anthropicは、入力トークン100万個あたり5ドル、出力トークン100万個あたり25ドルという名目価格に変更はないと発表しましたが、新しいトークナイザーにより、同じテキストでも生成されるトークン数が1.0倍から1.35倍に増加しました。これに、より多くの処理能力を使用する新しいデフォルト設定「xhigh」が加わることで、多くのユーザーにとって実質的なコスト増を招いています。

今回のリリースは、戦略的な賭けであると見る向きもあります。Anthropicは、Opus 4.7が、サイバーセキュリティ研究のためにGoogleやMicrosoftなどの一部のパートナーにのみ提供されている未発表の最強モデル「Claude Mythos Preview」よりも「汎用的な能力が低い」ことを明言しました。長文想起やウェブ検索（Opus 4.7は現在GPT-5.4やGemini 3.1 Proに遅れをとっています）などの機能を低下させることで、Anthropicは収益への道筋が最も明確な商業的アプリケーションにリソースを集中させているようです。

投資家や企業顧客にとって、Opus 4.7はAI市場の成熟を示す明確なシグナルです。あらゆるベンチマークで「最強のモデル」を追い求める時代は終わり、特定の高付加価値タスク向けに設計された専門特化型モデルの新フェーズへと移行しつつあるのかもしれません。Opus 4.7は、収益性の高いコーディングやエージェント型ワークフローの分野でAnthropicのリードを広げますが、その意図的なトレードオフは、顧客がモデルを評価する際、強みだけでなく、意図的に設計された弱点も考慮しなければならないことを意味しています。

この記事は情報提供のみを目的としており、投資アドバイスを構成するものではありません。