Opus 4.6 比2026年性能目标提前10个月实现
领先的AI预测专家、评估机构METR的Ajeya Cotra公开承认,AI进步的速度甚至超过了她最近的预测。在她1月14日的预测中,Cotra曾预计最先进的AI模型将在2026年底前,在需要24小时“时间跨度”的软件工程任务中达到50%的成功率。仅仅两个月后,Anthropic的新Claude Opus 4.6模型经评估,其时间跨度约为12小时,比原计划提前了近十个月实现了这一里程碑。
METR测试集的数据显示,Opus 4.6至少部分完成了19项软件工程任务中的14项,这些任务预计人类需要八小时以上才能完成。Cotra表示,考虑到今年还有十个月的进一步发展时间,她之前关于AI在24小时任务中有一半时间会失败的预测“不再可信”。
研究员将2024年AI完全自动化可能性定为10%
该模型的性能促使Cotra重新评估AI在整个研发过程中实现完全自动化的可能性。她维持了10%的可能性,即一个AI系统可以在今年年底前完全独立处理研究构思和实施,无需任何人工参与。即使她的同事最初认为她提出的10%估算值过高,她仍坚持这一评估。
这一视角的转变意义重大,因为Cotra的谨慎态度已从根本上改变。她指出AI仍然缺乏人类水平的“研究判断力”和“创造力”,但同时也阐明了由加速进展带来的新不确定性。她表示:“这是我第一次无法找到任何稳定的趋势来推断,说它不会很快发生。”
能力提升超越传统评估指标
AI模型能力的加速提升也正在考验衡量它们的框架。Cotra指出,随着AI代理能够处理超过80小时的任务,“时间跨度”的概念变得不那么相关。这种大规模项目自然适合分解为更小、并行的子任务,这些子任务可以由一个“管理者”AI管理,并由其他AI代理执行。
这一现实促使了新基准的讨论,例如衡量一个大型团队完成项目所需的日历时间,而不是单人所需的小时数。虽然这种由AI驱动的项目管理方法可能无法完全复制对人类团队的直观理解,但Cotra认为,对于一大类软件项目而言,它可能被证明“出人意料地有效”,这使得今年AI工程能力的上限极难估计。