Anthropic Claude Code 사고 깊이 67% 급락

AMD의 AI 디렉터가 발표한 충격적인 보고서에 따르면, Anthropic의 Claude Code AI가 2월 이후 성능이 체계적으로 저하되었으며, "사고 깊이"가 67% 급감하여 한 팀의 API 비용이 122배 폭증했다고 합니다. GitHub에 공개된 이 분석은 개발자 커뮤니티에 거센 논란을 일으켰으며, AI 코딩 어시스턴트의 신뢰성에 의문을 제기하고 경쟁사인 OpenAI의 Codex에 압박을 가하고 있습니다.

AMD AI 팀의 리더인 스텔라 로렌조(Stella Laurenzo)는 GitHub 이슈 보고서에서 "Claude는 더 이상 복잡한 엔지니어링 작업을 수행하는 데 신뢰할 수 없는 수준이 되었다"고 말했습니다. 그녀는 자신의 팀이 이미 다른 서비스 제공업체로 전환했음을 밝히며, 이제 "다른 경쟁사들을 매우 진지하게 고려하고 평가해야 한다"고 경고했습니다.

로렌조의 분석은 6,852개의 세션 로그를 바탕으로 성능의 급격한 하락을 보여줍니다. 추론 과정을 측정하는 모델의 사고 깊이 중앙값은 2월 초 약 2,200자에서 월말에는 단 720자로 줄어들었습니다. 이러한 추론 능력의 붕괴는 코드 작성 전 조사 노력이 70% 감소하는 현상을 동반했으며, 모델의 "읽기-수정" 비율은 6.6에서 2.0으로 떨어졌습니다. 이로 인해 에러가 급증했으며, 모델은 세 번의 편집 중 한 번꼴로 관련 파일을 먼저 읽지 않고 코드를 수정하려고 시도했습니다.

성능 저하는 재앙적인 비용 문제로 이어졌습니다. 로렌조의 팀은 Bedrock Opus 가격을 기준으로 한 예상 월간 API 청구액이 345달러에서 42,121달러로 122배 급증했음을 확인했습니다. 결과물은 더 나빠졌음에도 비용은 폭등한 것입니다. 결국 팀은 에이전트 클러스터 전체를 중단해야 했습니다. 보고서는 이러한 성능 저하가 Anthropic의 "적응형 사고(adaptive thinking)" 기능 도입 및 기본 "노력(effort)" 설정이 '높음'에서 '중간'으로 변경된 시점과 일치한다고 지적합니다.

Anthropic의 응답과 커뮤니티의 회의론

Boris로 알려진 Claude Code 팀 멤버는 이러한 변화가 모델의 근본적인 로직을 저하시키려는 의도가 아니었다고 답했습니다. 그는 모델의 사고 과정을 숨기는 기능은 UI 변경 사항일 뿐이며, 사용자가 수동으로 "노력" 설정을 높음으로 되돌릴 수 있다고 설명했습니다. 그러나 개발자 커뮤니티의 많은 이들은 여전히 납득하지 못하고 있으며, 설정을 최고로 높여도 모델의 성능이 수준 이하라고 주장합니다. 한 사용자는 Hacker News에서 "문제는 단순히 기본 사고 수준이 중간으로 바뀐 것 그 이상이다"라고 논평했습니다.

대안을 찾는 개발자들

이번 사건으로 인해 많은 개발자가 플랫폼을 떠나고 있으며, 일부는 OpenAI의 Codex나 Qwen3.5-27b와 같은 오픈 소스 모델로 전환했음을 공개적으로 밝히고 있습니다. 임시 조치로 일부 사용자들은 모델이 파일을 편집하도록 명시적으로 권한을 부여하고 복잡한 작업을 더 작고 관리하기 쉬운 단위로 쪼개고 있습니다. 로렌조의 보고서는 Anthropic에 API 응답 시 thinking_tokens를 노출하여 사용자가 직접 모델의 추론 깊이를 모니터링할 수 있도록 하는 등 더 높은 투명성을 요구하고 있습니다.

이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.