關鍵要點:
- Anthropic 的「Project Deal」項目讓 AI 代理為員工自主進行了 186 筆真實資金交易,總額超過 4,000 美元,導致 eBay 股價下跌 4.5%。
- 實驗揭示了顯著的性能差距,先進的 Claude Opus 模型達成的交易價值比小型 Haiku 模型平均高出 2.45 至 2.68 美元。
- 使用性能較弱的 Haiku 模型的用戶並未察覺到價格差異,他們對交易公平性的評分與使用更優越的 Opus 模型的用戶幾乎完全一致。
關鍵要點:

Anthropic 的一項內部實驗顯示,由 AI 代理自主談判的真實交易表明,更強大的模型能獲得更優價格,而使用較弱模型的用戶並未察覺到差異。
Anthropic 最近進行的「Project Deal」實驗中,Claude AI 代理為員工自主交易了價值超過 4,000 美元的真實商品,這為 AI 驅動的商業提供了一個嚴峻的預覽,並直接導致 eBay 股價下跌 4.5%。這家 AI 初創公司在週五悄然發佈的調查結果,向用戶驅動的市場發出了關於該技術顛覆性潛力的明確信號。
「圍繞代表我們進行交易的 AI 模型的政策和法律框架根本尚未存在,」Anthropic 研究人員寫道,強調了實驗結果對市場公平性和隱形不平等所提出的緊迫問題。
實驗表明,與較小的 Haiku 模型相比,使用功能更強大的 Claude Opus 模型的代理,平均為賣家多爭取到 2.68 美元,為買家多節省 2.45 美元,但兩個模型的用戶報告的滿意度幾乎完全一致。
這一結果預示著像 eBay 這樣由用戶驅動的市場可能面臨顛覆,暗示在未來,決定經濟結果的將是用戶 AI 代理的質量,而非其自身的談判技巧。對於這一現實,市場和監管機構似乎尚未做好準備。
這項為期一週的實驗於 2025 年 12 月進行,涉及 69 名位於三藩市的 Anthropic 員工,每人獲得 100 美元的預算。在與 Claude 進行初步訪談以確定其購買、銷售和談判偏好後,這些代理被投放至四個平行的 Slack 市場中。在兩輪運行中,參與者有 50% 的機會被分配到性能稍遜的 Claude Haiku 4.5 模型,而非前沿的 Claude Opus 4.5 模型。
性能差距並非微不足道。在 161 件商品中,Opus 賣家平均多賺 2.68 美元,而 Opus 買家平均少付 2.45 美元。在一個具體案例中,Opus 代理以 65 美元的價格賣掉了一輛折疊壞了的自行車,而為同一賣家處理相同商品的 Haiku 代理僅設法賣出了 38 美元。儘管存在這些明顯的金錢差異,使用 Haiku 代理的參與者對交易公平性的評分為 4.06(滿分 7 分),與 Opus 用戶的 4.05 評分在統計上幾乎沒有區別。
Anthropic 將這種感知差距稱為「令人不安的啟示」。當不同強度的代理在市場中競爭時,用戶可能會在完全不知情的情況下獲得客觀上更糟的結果。這造成了一種當前市場結構尚未能解決的隱形不平等形式。該消息立即給電子商務類股票帶來壓力,eBay 股價在報告發佈當日下跌約 4.5%。
實驗表明,由代理介導的商業並非遙不可及,46% 的參與者表示願意為此類服務付費。一直致力於將 Claude 定位於消費交易領域的 Anthropic 標記了多項風險,包括提示詞注入等新的操縱手段,以及 AI 驅動交易法律框架缺失的事實。行業目前面臨的核心問題是,市場是否將被要求披露代表用戶進行談判的代理的能力水平,這一監管挑戰可能會定義電子商務的下一階段。
本文僅供參考,不構成投資建議。