Anthropic의 Claude 4.7 출시: 코딩 성능 향상 및 컨텍스트 46% 감소

Anthropic은 소프트웨어 엔지니어링 벤치마크에서 선도적인 점수를 기록한 Claude Opus 4.7을 출시했으나, 모델의 긴 문맥 회상(long-context recall) 능력이 46% 포인트 이상 급락하며 범용 성능에서 전문화된 기업용 도구로의 전략적 변화를 예고했습니다.

Anthropic이 공유한 성명에서 Hex의 CTO는 "Opus 4.7은 더 지능적이고 효율적인 Opus 4.6"이라며, "낮은 노력(low-effort) 수준의 Opus 4.7은 중간 노력(medium-effort) 수준의 Opus 4.6과 거의 맞먹는다"고 언급했습니다.

새 모델은 SWE-bench Pro 코딩 테스트에서 64.3%를 기록해, 이전 모델의 53.4%에서 크게 도약했으며 OpenAI의 GPT-5.4(57.7%)를 앞질렀습니다. 그러나 MRCR v2 긴 문맥 벤치마크에서는 Opus 4.6의 78.3%에서 32.2%로 점수가 폭락했습니다. 이는 새로운 토크나이저(tokenizer) 도입의 결과로, 사용자에게는 실질적인 비용 증가로 이어집니다.

이러한 절충안은 연간 매출 실행률(annualized revenue rate)이 300억 달러에 달하는 것으로 알려진 Anthropic이 비용이 많이 드는 컨텍스트 윈도우 경쟁보다 수익성이 높은 기업용 코딩 및 에이전트 워크플로우 시장을 우선시하고 있음을 시사합니다. 개발자들에게 이는 더 강력하지만 잠재적으로 더 비싸며, 한때 강점이었던 긴 문서 분석에는 덜 적합한 도구가 되었음을 의미합니다.

타겟팅된 업그레이드

Opus 4.7은 전반적인 개선이 아닌 타겟팅된 업그레이드입니다. 모델의 개선 사항은 기업 개발자에게 중요한 영역에 집중되어 있으며, 이 부문은 지난 2월 Claude Code의 연간 매출을 25억 달러까지 끌어올린 것으로 보고되었습니다. 인기 있는 AI 코드 에디터 성능을 측정하는 CursorBench 테스트에서 Opus 4.7은 이전 모델보다 12포인트 상승한 70%를 기록했습니다. 초기 파트너인 라쿠텐(Rakuten)은 새 모델이 Opus 4.6보다 3배 더 많은 프로덕션 작업을 해결한다고 보고했습니다.

비전 능력 또한 대폭 향상되었습니다. XBOW 시각적 벤치마크에서 Opus 4.7의 정확도는 이전 모델의 54.5%에서 98.5%로 급상승했습니다. 이미지 해상도가 3배 향상된 것과 결합된 이러한 개선은 복잡한 도표나 스크린샷 읽기 같은 시각적 작업을 실제 프로덕션 환경에서 신뢰할 수 있는 수준으로 만들었으며, 이는 컴퓨터 사용 에이전트의 핵심 요구 사항입니다.

하지만 이러한 개선에는 비용이 따릅니다. 이전 Claude 버전의 상징이었던 방대한 문서에서의 정보 회상 능력은 크게 제한되었습니다. 긴 문맥 벤치마크에서 46포인트 하락한 것은 광범위한 텍스트 분석에 의존하는 법률이나 연구 분야 사용자들에게는 큰 후퇴입니다. Anthropic은 이러한 변화가 텍스트를 다르게 처리하는 새로운 토크나이저 때문이라고 설명했습니다.

숨겨진 비용

Anthropic은 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러의 명목 가격을 유지한다고 발표했지만, 새로운 토크나이저로 인해 동일한 텍스트가 이제 1.0배에서 1.35배 더 많은 토큰을 생성하게 됩니다. 여기에 더 많은 처리 능력을 사용하는 새로운 기본 설정인 'xhigh' 노력 수준이 결합되면서 많은 사용자에게 실질적인 비용 증가를 초래하고 있습니다.

이번 출시는 일부 전문가들에 의해 전략적 도박으로 평가받고 있습니다. Anthropic은 Opus 4.7이 사이버 보안 연구를 위해 구글과 마이크로소프트 등 소수 파트너에게만 제공되는 미출시 모델 'Claude Mythos Preview'보다 "범용적 능력이 떨어진다"고 명시적으로 밝혔습니다. 긴 문맥 회상과 웹 검색(현재 GPT-5.4 및 Gemini 3.1 Pro에 뒤처짐) 등의 기능을 저하시킴으로써, Anthropic은 수익 창출 경로가 가장 확실한 상업적 애플리케이션에 리소스를 집중하고 있는 것으로 보입니다.

투자자와 기업 고객들에게 Opus 4.7은 AI 시장이 성숙해지고 있다는 분명한 신호입니다. 모든 벤치마크에서 '가장 강력한 모델'을 쫓던 시대가 가고 특정 고부가가치 작업을 위해 설계된 전문 모델의 시대로 넘어가고 있습니다. Opus 4.7은 수익성 높은 코딩 및 에이전트 워크플로우 분야에서 Anthropic의 우위를 확장하지만, 이러한 의도적인 절충은 고객이 이제 모델의 강점뿐만 아니라 설계된 약점까지 평가해야 함을 의미합니다.

이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.