Anthropic洩露揭示AI模型過於危險不宜公眾發布

Edgen Stock·Mar 27 2026, 07:58

分享至

分享至

複製連結

主要發現

人工智慧公司Anthropic的一個配置錯誤導致近3,000份內部文件洩露，從而揭示了一個名為“Claude Mythos”的強大新模型。儘管該模型代表了能力的“代際飛躍”，但該公司以其可能引發前所未有的網路攻擊為由，暫不向公眾發布。

內容管理系統（CMS）中的一個配置錯誤無意中使Anthropic近3,000份內部文件（包括部落格草稿和PDF）可供公開訪問。
此次洩露揭示了一個代號為“Capybara”的全新頂級AI模型，據報導，該模型在編碼和推理方面表現出比當前旗艦產品Claude Opus 4.6更顯著的性能提升。
內部文件將該模型描述為重大的網路安全風險，其攻擊能力 “遠超”任何現有AI，促使該公司採取謹慎的發布策略，首先專注於安全防禦者。

配置錯誤導致Anthropic新AI模型相關3,000份文件洩露

Anthropic發生了一次重大的營運失誤，導致其下一代人工智慧模型意外洩露。3月26日，一個配置錯誤的內容管理系統（CMS）使大約3,000份未發布的內部資產公開可訪問。這些文件揭示了代號為“Capybara”的全新旗艦模型“Claude Mythos”的存在。

洩露的草稿材料將“Capybara”定位為超越該公司當前頂級模型Opus的新一代產品。文件將新模型描述為“代際飛躍”，稱其在軟體編程、學術推理和網路安全測試中取得了比Claude Opus 4.6模型“顯著更高的分數”。Anthropic的一位發言人證實，該公司正在開發一個具有“重大進步”的模型，但鑒於其強大能力，正在謹慎推進。

新模型帶來“前所未有”的網路攻擊風險

性能提升的光芒被關於模型安全影響的嚴峻內部警告所掩蓋。洩露的草稿文件將Claude Mythos的攻擊能力描述為“遠超”任何其他現有AI模型。該公司自己的評估結論是，這項技術可能引發新一輪網路攻擊，其“利用速度將遠遠超過防禦者的反應能力”。

在一個犯罪分子已經利用AI在不到30分鐘內實施系統入侵的安全環境中，這種擔憂被進一步放大。“Capybara”的超凡能力代表著這一威脅的重大升級。作為回應，Anthropic目前計劃放棄公開發布。相反，它將主要向網路安全組織提供早期訪問權限，以幫助他們“領先於即將到來的AI驅動的攻擊浪潮”，並加強自身的系統。