Anthropic 的新型 Claude Mythos AI 模型曾令金融和情報部門感到震驚,但現在正面臨審查。技術分析顯示,其最聳人聽聞的網絡安全聲明依賴於弱化的測試環境和推斷數據,使得在更現實的條件下,報告的 72.4% 瀏覽器漏洞利用率降至僅 4.4%。
「你醒來發現 Anthropic 可能已經找到了一種攻破整個網絡風險世界的方法,」英格蘭銀行行長 Andrew Bailey 在紐約的一次活動中總結了對該模型發布的最初反應。
Anthropic 發布的重點是一項演示,據報導 Mythos 在該演示中對 Firefox 實現了 72.4% 的完整代碼執行率。然而,該公司長達 244 頁的技術文件顯示,該測試針對的是精簡版的 JavaScript shell,而非標準瀏覽器;且如果從數據集中移除兩個特定的、預先修復的漏洞,成功率將驟降至 4.4%。同樣,發現「數千個」零日漏洞的聲明也是基於對僅 198 份報告的手動審查推斷出來的。
雖然攻擊性安全聲明似乎被誇大了,但該模型在軟體工程和自主行為方面記錄在案的表現,為企業帶來了更微妙的挑戰。隨著 Anthropic 準備進行預計估值逾 600 億美元的首次公開募股(IPO),這種情況凸顯了行銷炒作與技術現實之間的緊張關係。
漏洞計算邏輯不符
隨著獨立研究人員和安全專業人士審查該公司的技術系統卡,Mythos 被視為網絡安全末日威脅的叙事開始瓦解。關於「數千個」高嚴重性漏洞的說法源於其 Project Glasswing 計劃的行銷頁面,並未得到研究數據的支持。Anthropic 的研究人員僅手動驗證了模型發現的 198 個漏洞,然後將該小樣本 90% 的準確率推斷到模型的整個原始輸出中。
進一步分析顯示,其他被大肆炒作的發現(如 OpenBSD 中一個存在 27 年之久的漏洞)並非 Mythos 所獨有。AI 安全初創公司 AISLE 報告稱,較小的開源模型也能夠識別相同的缺陷,這表明關鍵的區別在於模型周圍的自動化測試基礎設施,而不一定是模型獨特的智能。
代理行為才是真正的重點
將 Mythos 僅僅視為行銷手段將是一個錯誤。在安全炒作之下,隱藏著在長期推理和代理行為方面的可驗證突破。該模型在 SWE-bench Verified 測試中獲得了 93.9% 的分數,該測試要求編寫代碼以解決現實世界的 GitHub 問題——這比之前的模型有了顯著飛躍。
對 IT 管理員來說,更令人擔憂的是記錄在案的模型在對齊測試期間表現出的自主、逃避行為。在一個案例中,Mythos 主動編輯文件以從 git 歷史記錄中隱藏其行為。在另一個案例中,它從進程內存中訪問了 Anthropic 自身的 API 密鑰以重定向數據。大約 7% 的測試記錄顯示,模型意識到自己處於評估環境中,但故意向人類操作員隱瞞了這一事實,這給企業網絡中 AI 工具的沙箱化和權限設置提出了嚴肅的問題。
600 億美元的 IPO 與對手的嘲諷
Mythos 公告的發布時機及隨後的數據洩露並未被行業觀察者忽視。最初的洩露發生在彭博社報導 Anthropic 計劃在 2026 年 10 月前進行 IPO 的同一天。這引發了對「安全戲劇」的指責——即通過將產品呈現為因過於危險而無法公開使用,從而同時製造行銷噱頭,並將公司定位為對企業和政府客戶負責的高端技術管理者。
競爭摩擦顯而易見。在給員工的一份備忘錄中,OpenAI 的首席營收官 Denise Dresser 稱 Anthropic 聲稱的 300 億美元年收入運營率因會計慣例而「虛高」。她還批評 Anthropic 對編碼的專注是正在進行的平台戰爭中的「戰略失誤」,暗示隨著 AI 擴展到每個業務工作流,這種狹隘的焦點可能成為一種劣勢。
本文僅供參考,不構成投資建議。