关键要点:
- Anthropic 的“Project Deal”项目让 AI 代理为员工自主进行了 186 笔真实资金交易,总额超过 4,000 美元,导致 eBay 股价下跌 4.5%。
- 实验揭示了显著的性能差距,先进的 Claude Opus 模型达成的交易价值比小型 Haiku 模型平均高出 2.45 至 2.68 美元。
- 使用性能较弱的 Haiku 模型的用户并未察觉到价格差异,他们对交易公平性的评分与使用更优越的 Opus 模型的用户几乎完全一致。
关键要点:

Anthropic 的一项内部实验显示,由 AI 代理自主谈判的真实交易表明,更强大的模型能获得更优价格,而使用较弱模型的用户并未察觉到差异。
Anthropic 最近进行的“Project Deal”实验中,Claude AI 代理为员工自主交易了价值超过 4,000 美元的真实商品,这为 AI 驱动的商业提供了一个严峻的预览,并直接导致 eBay 股价下跌 4.5%。这家 AI 初创公司在周五悄然发布的调查结果,向用户驱动的市场发出了关于该技术颠覆性潜力的明确信号。
“围绕代表我们进行交易的 AI 模型的政策和法律框架根本尚未存在,”Anthropic 研究人员写道,强调了实验结果对市场公平性和隐形不平等所提出的紧迫问题。
实验表明,与较小的 Haiku 模型相比,使用功能更强大的 Claude Opus 模型的代理,平均为卖家多争取到 2.68 美元,为买家多节省 2.45 美元,但两个模型的用户报告的满意度几乎完全一致。
这一结果预示着像 eBay 这样由用户驱动的市场可能面临颠覆,暗示在未来,决定经济结果的将是用户 AI 代理的质量,而非其自身的谈判技巧。对于这一现实,市场和监管机构似乎尚未做好准备。
这项为期一周的实验于 2025 年 12 月进行,涉及 69 名位于旧金山的 Anthropic 员工,每人获得 100 美元的预算。在与 Claude 进行初步访谈以确定其购买、销售和谈判偏好后,这些代理被投放到四个平行的 Slack 市场中。在两轮运行中,参与者有 50% 的机会被分配到性能稍逊的 Claude Haiku 4.5 模型,而非前沿的 Claude Opus 4.5 模型。
性能差距并非微不足道。在 161 件商品中,Opus 卖家平均多赚 2.68 美元,而 Opus 买家平均少付 2.45 美元。在一个具体案例中,Opus 代理以 65 美元的价格卖掉了一辆折叠坏了的自行车,而为同一卖家处理相同商品的 Haiku 代理仅设法卖出了 38 美元。尽管存在这些明显的金钱差异,使用 Haiku 代理的参与者对交易公平性的评分为 4.06(满分 7 分),与 Opus 用户的 4.05 评分在统计上几乎没有区别。
Anthropic 将这种感知差距称为“令人不安的启示”。当不同强度的代理在市场中竞争时,用户可能会在完全不知情的情况下获得客观上更糟的结果。这造成了一种当前市场结构尚未能解决的隐形不平等形式。该消息立即给电子商务类股票带来压力,eBay 股价在报告发布当日下跌约 4.5%。
实验表明,由代理介导的商业并非遥不可及,46% 的参与者表示愿意为此类服务付费。一直致力于将 Claude 定位于消费交易领域的 Anthropic 标记了多项风险,包括提示词注入等新的操纵手段,以及 AI 驱动交易法律框架缺失的事实。行业目前面临的核心问题是,市场是否将被要求披露代表用户进行谈判的代理的能力水平,这一监管挑战可能会定义电子商务的下一阶段。
本文仅供参考,不构成投资建议。