Opus 4.6, 2026년 성능 목표를 10개월 앞당겨 달성
선도적인 AI 예측 전문가이자 평가 기관 METR의 아제야 코트라(Ajeya Cotra)는 AI 발전 속도가 자신의 가장 최근 예측마저도 초과하고 있음을 공개적으로 인정했습니다. 1월 14일 예측에서 코트라는 가장 진보된 AI 모델이 2026년 말까지 24시간 '시간 범위'가 필요한 소프트웨어 엔지니어링 작업에서 50%의 성공률을 달성할 것이라고 예측했습니다. 불과 두 달 후, Anthropic의 새로운 Claude Opus 4.6 모델은 약 12시간의 시간 범위를 기록하며, 예정보다 거의 10개월 앞서 이 이정표를 달성했습니다.
METR 테스트 세트의 성능 데이터에 따르면 Opus 4.6은 인간에게 8시간 이상이 필요할 것으로 예상되는 19개 소프트웨어 엔지니어링 작업 중 14개를 최소한 부분적으로 완료했습니다. 코트라는 올해에도 10개월의 추가 개발 시간이 남아 있음을 감안할 때, AI가 24시간 작업에서 절반은 실패할 것이라는 이전 예측이 "더 이상 신뢰할 수 없다"고 밝혔습니다.
연구원, 2024년 완전 AI 자동화 가능성 10% 할당
이 모델의 성능은 코트라가 전체 연구 개발 과정에서 AI가 완전 자동화를 달성할 가능성을 재평가하도록 만들었습니다. 그녀는 AI 시스템이 올해 말 이전에 인간의 개입 없이 연구 아이디어 구상 및 구현을 완전히 처리할 수 있을 가능성을 10%로 유지했습니다. 동료들이 처음에는 그녀의 10% 추정치가 너무 높다고 보았음에도 불구하고 이러한 평가는 유지되었습니다.
코트라의 신중한 태도가 근본적으로 변화했다는 점에서 이러한 관점의 변화는 중요합니다. 그녀는 AI가 여전히 인간 수준의 "연구 판단"과 "창의성"이 부족하다고 언급하면서도, 가속화되는 발전으로 인한 새로운 불확실성을 분명히 밝혔습니다. 그녀는 "이것은 제가 '곧 일어나지 않을 것'이라고 말할 수 있는 안정적인 추세를 찾을 수 없었던 첫 번째 경험입니다"라고 말했습니다.
능력 향상이 전통적인 평가 지표를 넘어서다
AI 모델 능력의 가속화된 증가는 측정 프레임워크에도 부담을 주고 있습니다. 코트라는 AI 에이전트가 80시간을 초과하는 작업을 처리할 수 있게 되면서 '시간 범위' 개념이 덜 중요해진다고 지적합니다. 이러한 대규모 프로젝트는 자연스럽게 더 작고 병렬적인 하위 작업으로 분해될 수 있으며, 이는 '관리자' AI에 의해 관리되고 다른 AI 에이전트에 의해 실행될 수 있습니다.
이러한 현실은 단일 개인이 소요하는 시간 대신 대규모 팀이 프로젝트를 완료하는 데 필요한 달력 시간을 측정하는 것과 같은 새로운 벤치마크에 대한 논의를 촉발했습니다. 이러한 AI 기반 프로젝트 관리 방식이 인간 팀의 직관적인 이해를 완벽하게 재현하지 못할 수도 있지만, 코트라는 대규모 소프트웨어 프로젝트 범주에서 "놀랍도록 효과적"일 수 있다고 믿으며, 올해 AI 엔지니어링 능력의 상한선을 예측하기 매우 어렵게 만듭니다.