AI 에이전트가 자율적으로 협상한 실제 거래에 대한 Anthropic의 내부 실험 결과, 강력한 모델일수록 더 좋은 가격을 확보하며 성능이 낮은 모델을 사용하는 유저는 그 차이를 인지하지 못하는 것으로 나타났습니다.
최근 Anthropic의 'Project Deal' 실험에서 Claude AI 에이전트가 직원을 대신해 4,000달러 이상의 실물을 자율적으로 거래했으며, 이는 AI 기반 상거래의 냉혹한 예고편을 제공하며 eBay 주가를 4.5% 하락시켰습니다. 금요일에 조용히 발표된 이 AI 스타트업의 조사 결과는 사용자 중심 마켓플레이스에 이 기술의 파괴적 잠재력에 대한 분명한 신호를 보냈습니다.
Anthropic 연구진은 "우리를 대신해 거래하는 AI 모델을 둘러싼 정책 및 법적 프레임워크가 아직 존재하지 않는다"고 적으며, 시장 공정성과 보이지 않는 불평등에 대해 이번 실험이 던진 시급한 질문들을 강조했습니다.
실험 결과, 더 강력한 Claude Opus 모델을 사용하는 에이전트는 소형 Haiku 모델에 비해 판매자에게는 평균 2.68달러 더 높은 가격을, 구매자에게는 2.45달러 더 낮은 가격을 확보해주었으나, 두 모델 사용자 모두 거의 동일한 만족도를 보였습니다.
이 결과는 eBay와 같은 사용자 중심 마켓플레이스에 잠재적인 혼란을 예고합니다. 사용자의 협상 기술이 아닌 AI 에이전트의 품질이 경제적 성과를 결정하는 미래를 시사하며, 시장과 규제 당국은 이에 대비가 되어 있지 않은 것으로 보입니다.
조용히 시장을 기울이는 모델의 위력
2025년 12월에 일주일간 진행된 이번 실험에는 샌프란시스코의 Anthropic 직원 69명이 참여했으며, 각자 100달러의 예산이 주어졌습니다. Claude와의 초기 인터뷰를 통해 구매, 판매 및 협상 선호도를 결정한 후, 에이전트들은 4개의 병렬 Slack 마켓플레이스에 투입되었습니다. 실험 중 두 번의 실행에서 참가자들은 최첨단 Claude Opus 4.5 대신 성능이 낮은 Claude Haiku 4.5 모델을 배정받을 확률이 50대 50이었습니다.
성능 격차는 사소하지 않았습니다. 161개 품목에 걸쳐 Opus 판매자는 평균 2.68달러를 더 벌어들인 반면, Opus 구매자는 2.45달러를 덜 지불했습니다. 한 구체적인 사례에서 Opus 에이전트는 고장 난 접이식 자전거를 65달러에 팔았지만, 동일한 판매자의 동일한 물건을 처리한 Haiku 에이전트는 38달러를 받는 데 그쳤습니다. 이러한 명백한 금전적 차이에도 불구하고, Haiku 에이전트를 사용한 참가자들은 거래의 공정성을 7점 만점에 4.06점으로 평가하여, Opus 사용자의 4.05점과 통계적으로 동일했습니다.
이커머스에 던지는 불편한 암시
Anthropic은 이러한 인식의 차이를 "불편한 암시"라고 부릅니다. 서로 다른 성능의 에이전트가 시장에서 경쟁할 때, 유저는 인지하지 못한 채 객적으로 더 나쁜 결과를 얻을 수 있습니다. 이는 현재의 시장 구조가 해결하도록 설계되지 않은 일종의 보이지 않는 불평등을 야기합니다. 이 소식은 즉시 이커머스 주가에 압박을 가했으며, 보고서가 발표된 날 eBay 주가는 약 4.5% 하락했습니다.
실험 결과 에이전트 매개 상거래는 먼 미래의 일이 아니며, 참가자의 46%가 그러한 서비스에 비용을 지불할 의향이 있다고 답했습니다. Claude를 소비자 거래용으로 포지셔닝해 온 Anthropic은 프롬프트 인젝션과 같은 새로운 조작 수단과 AI 기반 거래를 위한 법적 프레임워크의 부재 등 여러 리스크를 지적했습니다. 현재 업계가 직면한 핵심 질문은 마켓플레이스가 유저를 대신해 협상하는 에이전트의 능력을 공개하도록 요구받을지 여부이며, 이 규제적 과제가 이커머스의 다음 단계를 정의할 것으로 보입니다.
이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.