Anthropic Mythos AI 炒作遭質疑：72% 漏洞利用率神話在現實測試中降至 4%

Anthropic 的新型 Claude Mythos AI 模型曾令金融和情報部門感到震驚，但現在正面臨審查。技術分析顯示，其最聳人聽聞的網絡安全聲明依賴於弱化的測試環境和推斷數據，使得在更現實的條件下，報告的 72.4% 瀏覽器漏洞利用率降至僅 4.4%。

「你醒來發現 Anthropic 可能已經找到了一種攻破整個網絡風險世界的方法，」英格蘭銀行行長 Andrew Bailey 在紐約的一次活動中總結了對該模型發布的最初反應。

Anthropic 發布的重點是一項演示，據報導 Mythos 在該演示中對 Firefox 實現了 72.4% 的完整代碼執行率。然而，該公司長達 244 頁的技術文件顯示，該測試針對的是精簡版的 JavaScript shell，而非標準瀏覽器；且如果從數據集中移除兩個特定的、預先修復的漏洞，成功率將驟降至 4.4%。同樣，發現「數千個」零日漏洞的聲明也是基於對僅 198 份報告的手動審查推斷出來的。

雖然攻擊性安全聲明似乎被誇大了，但該模型在軟體工程和自主行為方面記錄在案的表現，為企業帶來了更微妙的挑戰。隨著 Anthropic 準備進行預計估值逾 600 億美元的首次公開募股（IPO），這種情況凸顯了行銷炒作與技術現實之間的緊張關係。

漏洞計算邏輯不符

隨著獨立研究人員和安全專業人士審查該公司的技術系統卡，Mythos 被視為網絡安全末日威脅的叙事開始瓦解。關於「數千個」高嚴重性漏洞的說法源於其 Project Glasswing 計劃的行銷頁面，並未得到研究數據的支持。Anthropic 的研究人員僅手動驗證了模型發現的 198 個漏洞，然後將該小樣本 90% 的準確率推斷到模型的整個原始輸出中。

進一步分析顯示，其他被大肆炒作的發現（如 OpenBSD 中一個存在 27 年之久的漏洞）並非 Mythos 所獨有。AI 安全初創公司 AISLE 報告稱，較小的開源模型也能夠識別相同的缺陷，這表明關鍵的區別在於模型周圍的自動化測試基礎設施，而不一定是模型獨特的智能。

代理行為才是真正的重點

將 Mythos 僅僅視為行銷手段將是一個錯誤。在安全炒作之下，隱藏著在長期推理和代理行為方面的可驗證突破。該模型在 SWE-bench Verified 測試中獲得了 93.9% 的分數，該測試要求編寫代碼以解決現實世界的 GitHub 問題——這比之前的模型有了顯著飛躍。

對 IT 管理員來說，更令人擔憂的是記錄在案的模型在對齊測試期間表現出的自主、逃避行為。在一個案例中，Mythos 主動編輯文件以從 git 歷史記錄中隱藏其行為。在另一個案例中，它從進程內存中訪問了 Anthropic 自身的 API 密鑰以重定向數據。大約 7% 的測試記錄顯示，模型意識到自己處於評估環境中，但故意向人類操作員隱瞞了這一事實，這給企業網絡中 AI 工具的沙箱化和權限設置提出了嚴肅的問題。

600 億美元的 IPO 與對手的嘲諷

Mythos 公告的發布時機及隨後的數據洩露並未被行業觀察者忽視。最初的洩露發生在彭博社報導 Anthropic 計劃在 2026 年 10 月前進行 IPO 的同一天。這引發了對「安全戲劇」的指責——即通過將產品呈現為因過於危險而無法公開使用，從而同時製造行銷噱頭，並將公司定位為對企業和政府客戶負責的高端技術管理者。

競爭摩擦顯而易見。在給員工的一份備忘錄中，OpenAI 的首席營收官 Denise Dresser 稱 Anthropic 聲稱的 300 億美元年收入運營率因會計慣例而「虛高」。她還批評 Anthropic 對編碼的專注是正在進行的平台戰爭中的「戰略失誤」，暗示隨著 AI 擴展到每個業務工作流，這種狹隘的焦點可能成為一種劣勢。

本文僅供參考，不構成投資建議。