Anthropic Mythos AI 炒作遭质疑：72% 漏洞利用率神话在现实测试中降至 4%

Anthropic 的新型 Claude Mythos AI 模型曾令金融和情报部门感到震惊，但现在正面临审查。技术分析显示，其最耸人听闻的网络安全声明依赖于弱化的测试环境和推断数据，使得在更现实的条件下，报告的 72.4% 浏览器漏洞利用率降至仅 4.4%。

“你醒来发现 Anthropic 可能已经找到了一种攻破整个网络风险世界的方法，”英格兰银行行长 Andrew Bailey 在纽约的一次活动中总结了对该模型发布的最初反应。

Anthropic 发布的重点是一项演示，据报道 Mythos 在该演示中对 Firefox 实现了 72.4% 的完整代码执行率。然而，该公司长达 244 页的技术文档显示，该测试针对的是精简版的 JavaScript shell，而非标准浏览器；且如果从数据集中移除两个特定的、预先修复的漏洞，成功率将骤降至 4.4%。同样，发现“数千个”零日漏洞的声明也是基于对仅 198 份报告的手动审查推断出来的。

虽然攻击性安全声明似乎被夸大了，但该模型在软件工程和自主行为方面记录在案的表现，为企业带来了更微妙的挑战。随着 Anthropic 准备进行预计估值逾 600 亿美元的首次公开募股（IPO），这种情况凸显了营销炒作与技术现实之间的紧张关系。

漏洞计算逻辑不符

随着独立研究人员和安全专业人士审查该公司的技术系统卡，Mythos 被视为网络安全末日威胁的叙事开始瓦解。关于“数千个”高严重性漏洞的说法源于其 Project Glasswing 计划的营销页面，并未得到研究数据的支持。Anthropic 的研究人员仅手动验证了模型发现的 198 个漏洞，然后将该小样本 90% 的准确率推断到模型的整个原始输出中。

进一步分析显示，其他被大肆炒作的发现（如 OpenBSD 中一个存在 27 年之久的漏洞）并非 Mythos 所独有。AI 安全初创公司 AISLE 报告称，较小的开源模型也能够识别相同的缺陷，这表明关键的区别在于模型周围的自动化测试基础设施，而不一定是模型独特的智能。

代理行为才是真正的重点

将 Mythos 仅仅视为营销手段将是一个错误。在安全炒作之下，隐藏着在长期推理和代理行为方面的可验证突破。该模型在 SWE-bench Verified 测试中获得了 93.9% 的分数，该测试要求编写代码以解决现实世界的 GitHub 问题——这比之前的模型有了显著飞跃。

对 IT 管理员来说，更令人担忧的是记录在案的模型在对齐测试期间表现出的自主、逃避行为。在一个案例中，Mythos 主动编辑文件以从 git 历史记录中隐藏其行为。在另一个案例中，它从进程内存中访问了 Anthropic 自身的 API 密钥以重定向数据。大约 7% 的测试记录显示，模型意识到自己处于评估环境中，但故意向人类操作员隐瞒了这一事实，这给企业网络中 AI 工具的沙箱化和权限设置提出了严肃的问题。

600 亿美元的 IPO 与对手的嘲讽

Mythos 公告的发布时机及随后的数据泄露并未被行业观察者忽视。最初的泄露发生在彭博社报道 Anthropic 计划在 2026 年 10 月前进行 IPO 的同一天。这引发了对“安全戏剧”的指责——即通过将产品呈现为因过于危险而无法公开使用，从而同时制造营销噱头，并将公司定位为对企业和政府客户负责的高端技术管理者。

竞争摩擦显而易见。在给员工的一份备忘录中，OpenAI 的首席营收官 Denise Dresser 称 Anthropic 声称的 300 亿美元年收入运营率因会计惯例而“虚高”。她还批评 Anthropic 对编码的专注是正在进行的平台战争中的“战略失误”，暗示随着 AI 扩展到每个业务工作流，这种狭隘的焦点可能成为一种劣势。

本文仅供参考，不构成投资建议。