新模型测试后，AI研究员将今年‘自动化研发’可能性提升至10%

Opus 4.6 比2026年性能目标提前10个月实现

领先的AI预测专家、评估机构METR的Ajeya Cotra公开承认，AI进步的速度甚至超过了她最近的预测。在她1月14日的预测中，Cotra曾预计最先进的AI模型将在2026年底前，在需要24小时“时间跨度”的软件工程任务中达到50%的成功率。仅仅两个月后，Anthropic的新Claude Opus 4.6模型经评估，其时间跨度约为12小时，比原计划提前了近十个月实现了这一里程碑。

METR测试集的数据显示，Opus 4.6至少部分完成了19项软件工程任务中的14项，这些任务预计人类需要八小时以上才能完成。Cotra表示，考虑到今年还有十个月的进一步发展时间，她之前关于AI在24小时任务中有一半时间会失败的预测“不再可信”。

研究员将2024年AI完全自动化可能性定为10%

该模型的性能促使Cotra重新评估AI在整个研发过程中实现完全自动化的可能性。她维持了10%的可能性，即一个AI系统可以在今年年底前完全独立处理研究构思和实施，无需任何人工参与。即使她的同事最初认为她提出的10%估算值过高，她仍坚持这一评估。

这一视角的转变意义重大，因为Cotra的谨慎态度已从根本上改变。她指出AI仍然缺乏人类水平的“研究判断力”和“创造力”，但同时也阐明了由加速进展带来的新不确定性。她表示：“这是我第一次无法找到任何稳定的趋势来推断，说它不会很快发生。”

能力提升超越传统评估指标

AI模型能力的加速提升也正在考验衡量它们的框架。Cotra指出，随着AI代理能够处理超过80小时的任务，“时间跨度”的概念变得不那么相关。这种大规模项目自然适合分解为更小、并行的子任务，这些子任务可以由一个“管理者”AI管理，并由其他AI代理执行。

这一现实促使了新基准的讨论，例如衡量一个大型团队完成项目所需的日历时间，而不是单人所需的小时数。虽然这种由AI驱动的项目管理方法可能无法完全复制对人类团队的直观理解，但Cotra认为，对于一大类软件项目而言，它可能被证明“出人意料地有效”，这使得今年AI工程能力的上限极难估计。

新模型测试后，AI研究员将今年‘自动化研发’可能性提升至10%

Edgen Stock

主要观点

Opus 4.6 比2026年性能目标提前10个月实现

研究员将2024年AI完全自动化可能性定为10%

能力提升超越传统评估指标