Anthropic泄露揭示AI模型过于危险不宜公开发布

Edgen Stock·Mar 27 2026, 07:58

分享到

分享到

复制链接

主要发现

人工智能公司Anthropic的一个配置错误导致近3,000份内部文件泄露，从而揭示了一个名为“Claude Mythos”的强大新模型。尽管该模型代表了能力的“代际飞跃”，但该公司以其可能引发前所未有的网络攻击为由，暂不向公众发布。

内容管理系统（CMS）中的一个配置错误无意中使Anthropic近3,000份内部文件（包括博客草稿和PDF）可供公开访问。
此次泄露揭示了一个代号为“Capybara”的全新顶级AI模型，据报道，该模型在编码和推理方面表现出比当前旗舰产品Claude Opus 4.6更显著的性能提升。
内部文件将该模型描述为重大的网络安全风险，其攻击能力 “远超”任何现有AI，促使该公司采取谨慎的发布策略，首先专注于安全防御者。

配置错误导致Anthropic新AI模型相关3,000份文件泄露

Anthropic发生了一次重大的运营失误，导致其下一代人工智能模型意外泄露。3月26日，一个配置错误的内容管理系统（CMS）使大约3,000份未发布的内部资产公开可访问。这些文件揭示了代号为“Capybara”的全新旗舰模型“Claude Mythos”的存在。

泄露的草稿材料将“Capybara”定位为超越该公司当前顶级模型Opus的新一代产品。文件将新模型描述为“代际飞跃”，称其在软件编程、学术推理和网络安全测试中取得了比Claude Opus 4.6模型“显著更高的分数”。Anthropic的一位发言人证实，该公司正在开发一个具有“重大进步”的模型，但鉴于其强大能力，正在谨慎推进。

新模型带来“前所未有”的网络攻击风险

性能提升的光芒被关于模型安全影响的严峻内部警告所掩盖。泄露的草稿文件将Claude Mythos的攻击能力描述为“远超”任何其他现有AI模型。该公司自己的评估结论是，这项技术可能引发新一轮网络攻击，其“利用速度将远远超过防御者的反应能力”。

在一个犯罪分子已经利用AI在不到30分钟内实施系统入侵的安全环境中，这种担忧被进一步放大。“Capybara”的超凡能力代表着这一威胁的重大升级。作为回应，Anthropic目前计划放弃公开发布。相反，它将主要向网络安全组织提供早期访问权限，以帮助他们“领先于即将到来的AI驱动的攻击浪潮”，并加强自身的系统。