앤스로픽(Anthropic) 클로드 AI, 성능 67% 저하 보고에 사용자 반발 직면

앤스로픽은 자사의 플래그십 모델인 클로드 오퍼스(Claude Opus) 4.6이 몰래 '너프(nerfed)', 즉 성능이 저하되었다는 주장에 대해 기업 사용자들로부터 상당한 반발에 직면해 있습니다. 한 분석에 따르면 복잡한 코딩 작업에서 모델의 추론 깊이가 67% 감소한 것으로 나타났습니다. 이 논란은 특히 OpenAI의 기업용 서비스와 경쟁하며 IPO를 준비 중인 것으로 알려진 3,800억 달러 규모의 스타트업에 대한 신뢰를 갉아먹을 위협이 되고 있습니다.

AMD의 AI 부문 수석 디렉터인 스텔라 로렌조(Stella Laurenzo)는 널리 퍼진 GitHub 분석에서 "사고가 얕아지면 모델은 가장 비용이 적게 드는 행동을 취하는 경향이 있다"며 "내용을 읽지 않고 수정하거나, 작업이 끝나기 전에 멈추고, 실수에 대한 책임을 회피하며, 가장 정확한 해결책이 아닌 가장 간단한 해결책을 선택한다"고 썼습니다.

GitHub, 레딧, X 전반으로 확산된 사용자 불만의 핵심은 클로드가 초기에 찬사를 받았던 복잡한 다단계 워크플로우에서 신뢰도가 떨어졌다는 점입니다. 로렌조가 6,800개 이상의 클로드 코드(Claude Code) 세션을 분석한 결과, 2월 말에서 3월 초 사이 모델이 코드를 작성하기 전 얼마나 많은 컨텍스트를 고려하는지를 나타내는 지표인 '편집당 읽기 횟수(reads-per-edit)'가 6.6에서 2.0으로 급락했습니다. 이에 대해 앤스로픽의 클로드 코드 책임자인 보리스 처니(Boris Cherny)는 회사가 모델을 비밀리에 저하시킨 것이 아니라, 대부분의 사용자를 위해 지능, 지연 시간, 비용의 균형을 맞추고자 기본 '노력(effort)' 수준을 '중간'으로 변경했다고 밝혔습니다.

이 논란은 고객이 지능의 품질에 대한 보장 없이 겉보기에 표준화된 AI 처리 단위에 대해 비용을 지불하는 '토큰 경제'의 불투명한 특성을 강조합니다. 토큰 가격은 3년 동안 약 300배 하락했지만, 기업의 AI 예산은 통제하기가 더 어려워지고 있습니다. Mavvrik과 Benchmarkit의 조사에 따르면 기업의 84%가 AI 비용이 예상보다 총 마진을 더 많이 갉아먹는다고 보고했으며, 예산 변동을 10% 이내로 제어할 수 있는 기업은 15%에 불과했습니다. 캐싱과 같은 기술적 요인도 문제를 악화시킵니다. 한 분석에 따르면 클로드 코드의 캐싱 동작 변경으로 입력 비용이 5.7배 증가할 수 있는 것으로 나타났습니다.

'슈링크플레이션' 문제

사용자 반발의 핵심은 성능이 낮은 제품에 동일한 가격을 지불하고 있다는 감정이며, 일부에서는 이를 'AI 슈링크플레이션(shrinkflation)'이라고 부릅니다. 이 문제는 개발자 옴 파텔(Om Patel)이 X에 올린 게시물에서 인지된 성능 저하를 67% 하락으로 요약하며 큰 관심을 끌었으며, 이는 로렌조의 GitHub 분석 결과와 일치합니다.

앤스로픽은 이러한 변화가 제품 및 인터페이스 선택 때문이지 비밀스러운 성능 저하가 아니라고 반박했습니다. 처니는 2월 9일에 오퍼스 4.6이 기본적으로 '적응형 사고(adaptive thinking)'를 활성화했고, 3월 3일에는 기본 노력 수준이 '중간'으로 설정되었다고 언급했습니다. 클로드 코드 터미널 사용자는 수동으로 노력을 '높음'으로 설정할 수 있지만, 다른 플랫폼의 프로 및 엔터프라이즈 사용자는 불가능합니다. 반발에 대응하여 처니는 팀 및 엔터프라이즈 사용자의 기본 설정을 '높은 노력'으로 테스트할 것이라고 말했습니다.

신뢰와 컴퓨팅의 문제

이 논쟁은 앤스로픽의 수요가 급증하여 피크 시간대에 사용 제한이 엄격해지고 회사가 컴퓨팅 자원 부족에 직면했을 수 있다는 추측이 나오는 가운데 발생했습니다. 보도에 따르면 OpenAI의 매출 책임자는 내부 메모에서 앤스로픽이 충분한 컴퓨팅 용량을 확보하지 못한 것이 '전략적 실수'라고 주장했습니다. 앤스로픽은 수요 관리를 위해 모델 성능을 저하시킨다는 의혹을 부인했습니다.

이 상황은 경쟁사보다 더 투명하고 사용자 이익에 부합한다고 자처해 온 회사에 심각한 신뢰 격차를 만들고 있습니다. 앤스로픽이 OpenAI의 코덱스(Codex)와 같은 서비스와 경쟁하고 IPO를 고려하고 있는 상황에서, 비용 균형을 위해 모델 품질을 몰래 낮춘다는 인식은 성장의 핵심인 기업 개발자들 사이에서의 입지를 손상시킬 수 있습니다. 회사의 과제는 이제 고정된 토큰 가격과 그 안에 담긴 '지능'의 가변적인 가치를 어떻게 조화시킬 것인가 하는 점입니다.

이 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.