Opus 4.6、2026年の性能目標を10か月早く達成
主要なAI予測専門家であり、評価機関METRのAjeya Cotra氏は、AIの進歩の速さが自身の最新の予測さえも上回っていることを公に認めました。1月14日の予測で、Cotra氏は最も高度なAIモデルが2026年末までに24時間の「時間スパン」を要するソフトウェアエンジニアリングタスクで50%の成功率を達成すると予測していました。わずか2か月後、Anthropicの新しいClaude Opus 4.6モデルは、約12時間の時間スパンで評価され、予定より約10か月早くこのマイルストーンを達成しました。
METRのテストセットからの性能データは、Opus 4.6が、人間が8時間以上を要すると推定される19のソフトウェアエンジニアリングタスクのうち14を少なくとも部分的に完了できることを示しました。Cotra氏は、今年まだ10か月のさらなる開発期間が残されていることを考えると、AIが24時間タスクで半分の時間失敗するという彼女の以前の予測は「もはや信頼できない」と述べました。
研究者、2024年の完全AI自動化の可能性を10%と評価
このモデルの性能により、Cotra氏はAIが研究開発プロセス全体で完全自動化を達成する可能性を再評価せざるを得なくなりました。彼女は、AIシステムが今年末までに人間の介入なしに研究のアイデア出しと実装を完全に処理できる可能性を10%と維持しています。この評価は、同僚が最初に彼女の10%という見積もりを提案した際に高すぎると見なしていたにもかかわらず、堅持されています。
Cotra氏の慎重なトーンが根本的に変化したため、この視点の変化は重要です。AIがまだ人間レベルの「研究判断」や「創造性」を欠いていると指摘しながらも、加速する進歩によって引き起こされる新たな不確実性も明確に述べました。彼女は、「これは私が、それがすぐに起こらないと断言できる安定した傾向を見つけられない初めての経験です」と述べています。
能力向上は従来の評価指標を超える
AIモデルの加速する能力は、それらを測定するために使用されるフレームワークをも圧迫しています。Cotra氏は、AIエージェントが80時間を超えるタスクを処理できるようになるにつれて、「時間スパン」の概念が関連性を失うと指摘しています。このような大規模プロジェクトは、自然に小さな並列サブタスクに分解することができ、「マネージャー」AIによって管理され、他のAIエージェントによって実行されます。
この現実が、単一の作業時間ではなく、大規模なチームがプロジェクトを完了するのに必要な暦時間を測定するといった新しいベンチマークの議論を促しています。このAI駆動型プロジェクト管理方法が、人間チームの直感的な理解を完全に再現できないかもしれないとしても、Cotra氏はそれが多くの種類のソフトウェアプロジェクトにとって「驚くほど効果的」である可能性があり、今年のAIエンジニアリング能力の上限を推定することを極めて困難にしていると信じています。