새로운 AI 벤치마크는 이제 모델이 16시간이 걸리는 작업을 처리할 수 있음을 시사하며, 이는 자율 작업 및 사이버 보안 응용 분야의 중요한 임계값을 넘어선 것입니다.
Anthropic의 프런티어 AI 모델은 최대 16시간 동안 지속되는 복잡한 소프트웨어 엔지니어링 작업을 자율적으로 완료할 수 있는 능력을 입증했으며, 이러한 새로운 능력 임계값은 AI 기반 사이버 보안의 지형을 재편하고 있습니다. AI 평가 그룹 METR의 결과는 모델 기능의 초지수적 성장을 시사하며, Palo Alto Networks Inc.와 같은 사이버 보안 공급업체는 이러한 추세가 이미 공격 및 방어 작전 모두에 극적인 영향을 미치고 있다고 보고합니다.
Palo Alto Networks는 최근 기술의 영향에 관한 보고서에서 "[프런티어 AI]를 사용하여 취약점 분석을 지원한 결과, 단 3주 만에 완료된 작업의 깊이와 폭이 최고 수준의 침투 테스트 팀 전체의 1년 치 작업량과 맞먹는 수준이었다"라고 기술했습니다.
새로운 벤치마크에 따르면 Anthropic의 Claude Mythos 모델은 인간의 작업 16시간이 필요한 작업에서 50%의 성공률을 달성할 수 있습니다. 이러한 기능의 도약은 소프트웨어 세계에서 위험과 생산성에 대한 신속한 재계산을 강요하고 있습니다. 모델에 대한 조기 액세스 권한을 부여받은 Palo Alto Networks는 여러 저위험 취약점을 찾아내 치명적인 공격 체인으로 엮는 과정을 단 25분으로 압축할 수 있음을 발견했습니다.
이러한 발전은 사이버 보안 기업 간의 AI 군비 경쟁을 가속화하며 Palo Alto Networks(PANW), Fortinet(FTNT), Zscaler Inc.와 같은 기존 업체에 압박을 가하고 있습니다. 또한 Anthropic과 경쟁사인 OpenAI와 같은 AI 개발자 간의 플랫폼 경쟁도 심화시키고 있습니다. 투자자들에게 핵심 질문은 이러한 새로운 수준의 AI 자율성이 어떻게 신뢰할 수 있는 기업 제품과 방어 가능한 수익원으로 전환되느냐 하는 것입니다.
AI 자율성의 새로운 벤치마크
METR의 "시간 지평선" 그래프는 프런티어 모델이 완료할 수 있는 소프트웨어 개발 작업의 길이를 측정합니다. 최신 결과는 Mythos가 이전 몇 년 동안 모델이 처리할 수 있었던 몇 분 또는 1시간 단위의 작업에서 크게 도약하여 16시간 작업을 절반의 확률로 성공적으로 처리하고 있음을 보여줍니다. 평가 기관은 16시간 이상 소요되도록 설계된 작업의 수가 제한되어 있어 모델 기능의 실제 상한선을 측정하기 어렵기 때문에 자체적인 모델 테스트 능력도 도전받고 있다고 언급했습니다.
이러한 급격하고 가속화된 진보는 "초지수적" 성장으로 불리며, 각 세대별 AI 기능의 도약은 이전보다 더 크게 나타나고 있습니다. 추세선은 2027년으로 예상되었던 기능들이 이미 충족되고 있음을 시사하며, 이는 생산성 향상에 대한 기대감과 점점 더 강력해지고 자율적인 AI 에이전트의 보안 함의에 대한 불안감을 동시에 불러일으키고 있습니다.
실험실에서 실전으로: 사이버 보안의 '원자적 순간'
Palo Alto Networks 연구 결과는 METR 벤치마크의 의미를 보여주는 극명한 실제 사례를 제공합니다. 최고 수준의 인간 팀이 수행하는 1년 치 작업을 3주로 자동화하는 능력은 사이버 공격과 방어 사이의 균형에서 근본적인 변화를 나타냅니다.
이 기능은 한 회사에 국한되지 않습니다. 경쟁사들도 첨단 AI를 통합하고 있습니다. 최근 2026 가트너 매직 쿼드런트 사이버 위협 인텔리전스 부문 리더로 선정된 CrowdStrike Holdings(CRWD)는 리스크 관리에 프런티어 AI를 적용하기 위해 Project QuiltWorks 연합을 확장하고 있습니다. SentinelOne(S)은 AI를 사용하여 악용 가능한 공격 경로를 식별하고 우선순위를 지정하는 Wayfinder 서비스를 출시했으며, Okta Inc.(OKTA)는 AI 에이전트 자체의 신원을 관리하기 위한 새로운 프레임워크를 개발하고 있습니다.
현실 점검: 50% 성공으로 충분한가?
16시간이라는 수치는 인상적이지만, 비평가들은 벤치마크를 과도하게 추정하는 것에 대해 경고합니다. 핵심적인 한계점은 50%의 성공률입니다. 인간 전문가가 실패한 시도를 검토하고 버릴 수 있는 연구 개발 분야에서 16시간 작업에 대한 50% 성공률은 혁신적입니다. 이는 사실상 인간 엔지니어의 결과물을 두 배로 늘려줍니다.
그러나 프로덕션 환경에 배포된 완전 자율 시스템의 경우 50%의 실패율은 받아들여질 수 없습니다. AI 연구원 Gary Marcus는 최근 분석에서 "자율적 상업 이용을 위한 신뢰성 임계값은 95%에서 99.9% 사이"라고 언급했습니다. 그는 METR 그래프가 50% 성공 라인에만 집중함으로써 AI가 기업 수준의 신뢰성과의 격차를 얼마나 빨리 좁히고 있는지를 보여주지 못한다고 주장합니다. 50%에서 99% 성공으로 가는 간극을 메우는 데 얼마나 걸릴지에 대한 논쟁은 인공 일반 지능(AGI)과 그 실질적 영향에 대한 논의의 중심에 있습니다.
이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.