Opus 4.6 比2026年性能目標提前10個月實現
領先的AI預測專家、評估機構METR的Ajeya Cotra公開承認,AI進步的速度甚至超過了她最近的預測。在她1月14日的預測中,Cotra曾預計最先進的AI模型將在2026年底前,在需要24小時「時間跨度」的軟體工程任務中達到50%的成功率。僅僅兩個月後,Anthropic的新Claude Opus 4.6模型經評估,其時間跨度約為12小時,比原計劃提前了近十個月實現了這一里程碑。
METR測試集的數據顯示,Opus 4.6至少部分完成了19項軟體工程任務中的14項,這些任務預計人類需要八小時以上才能完成。Cotra表示,考慮到今年還有十個月的進一步發展時間,她之前關於AI在24小時任務中有一半時間會失敗的預測「不再可信」。
研究員將2024年AI完全自動化可能性定為10%
該模型的性能促使Cotra重新評估AI在整個研發過程中實現完全自動化的可能性。她維持了10%的可能性,即一個AI系統可以在今年年底前完全獨立處理研究構思和實施,無需任何人工參與。即使她的同事最初認為她提出的10%估算值過高,她仍堅持這一評估。
這一視角的轉變意義重大,因為Cotra的謹慎態度已從根本上改變。她指出AI仍然缺乏人類水平的「研究判斷力」和「創造力」,但同時也闡明了由加速進展帶來的新不確定性。她表示:「這是我第一次無法找到任何穩定的趨勢來推斷,說它不會很快發生。」
能力提升超越傳統評估指標
AI模型能力的加速提升也正在考驗衡量它們的框架。Cotra指出,隨著AI代理能夠處理超過80小時的任務,「時間跨度」的概念變得不那麼相關。這種大規模專案自然適合分解為更小、並行的子任務,這些子任務可以由一個「管理者」AI管理,並由其他AI代理執行。
這一現實促使了新基準的討論,例如衡量一個大型團隊完成專案所需的日曆時間,而不是單人所需的小時數。雖然這種由AI驅動的專案管理方法可能無法完全複製對人類團隊的直觀理解,但Cotra認為,對於一大類軟體專案而言,它可能被證明「出人意料地有效」,這使得今年AI工程能力的上限極難估計。