新模型測試後，AI研究員將今年「自動化研發」可能性提升至10%

Opus 4.6 比2026年性能目標提前10個月實現

領先的AI預測專家、評估機構METR的Ajeya Cotra公開承認，AI進步的速度甚至超過了她最近的預測。在她1月14日的預測中，Cotra曾預計最先進的AI模型將在2026年底前，在需要24小時「時間跨度」的軟體工程任務中達到50%的成功率。僅僅兩個月後，Anthropic的新Claude Opus 4.6模型經評估，其時間跨度約為12小時，比原計劃提前了近十個月實現了這一里程碑。

METR測試集的數據顯示，Opus 4.6至少部分完成了19項軟體工程任務中的14項，這些任務預計人類需要八小時以上才能完成。Cotra表示，考慮到今年還有十個月的進一步發展時間，她之前關於AI在24小時任務中有一半時間會失敗的預測「不再可信」。

研究員將2024年AI完全自動化可能性定為10%

該模型的性能促使Cotra重新評估AI在整個研發過程中實現完全自動化的可能性。她維持了10%的可能性，即一個AI系統可以在今年年底前完全獨立處理研究構思和實施，無需任何人工參與。即使她的同事最初認為她提出的10%估算值過高，她仍堅持這一評估。

這一視角的轉變意義重大，因為Cotra的謹慎態度已從根本上改變。她指出AI仍然缺乏人類水平的「研究判斷力」和「創造力」，但同時也闡明了由加速進展帶來的新不確定性。她表示：「這是我第一次無法找到任何穩定的趨勢來推斷，說它不會很快發生。」

能力提升超越傳統評估指標

AI模型能力的加速提升也正在考驗衡量它們的框架。Cotra指出，隨著AI代理能夠處理超過80小時的任務，「時間跨度」的概念變得不那麼相關。這種大規模專案自然適合分解為更小、並行的子任務，這些子任務可以由一個「管理者」AI管理，並由其他AI代理執行。

這一現實促使了新基準的討論，例如衡量一個大型團隊完成專案所需的日曆時間，而不是單人所需的小時數。雖然這種由AI驅動的專案管理方法可能無法完全複製對人類團隊的直觀理解，但Cotra認為，對於一大類軟體專案而言，它可能被證明「出人意料地有效」，這使得今年AI工程能力的上限極難估計。

新模型測試後，AI研究員將今年「自動化研發」可能性提升至10%

Edgen Stock

主要觀點

Opus 4.6 比2026年性能目標提前10個月實現

研究員將2024年AI完全自動化可能性定為10%

能力提升超越傳統評估指標