Anthropic 的新型 Claude Mythos AI 模型曾令金融和情报部门感到震惊,但现在正面临审查。技术分析显示,其最耸人听闻的网络安全声明依赖于弱化的测试环境和推断数据,使得在更现实的条件下,报告的 72.4% 浏览器漏洞利用率降至仅 4.4%。
“你醒来发现 Anthropic 可能已经找到了一种攻破整个网络风险世界的方法,”英格兰银行行长 Andrew Bailey 在纽约的一次活动中总结了对该模型发布的最初反应。
Anthropic 发布的重点是一项演示,据报道 Mythos 在该演示中对 Firefox 实现了 72.4% 的完整代码执行率。然而,该公司长达 244 页的技术文档显示,该测试针对的是精简版的 JavaScript shell,而非标准浏览器;且如果从数据集中移除两个特定的、预先修复的漏洞,成功率将骤降至 4.4%。同样,发现“数千个”零日漏洞的声明也是基于对仅 198 份报告的手动审查推断出来的。
虽然攻击性安全声明似乎被夸大了,但该模型在软件工程和自主行为方面记录在案的表现,为企业带来了更微妙的挑战。随着 Anthropic 准备进行预计估值逾 600 亿美元的首次公开募股(IPO),这种情况凸显了营销炒作与技术现实之间的紧张关系。
漏洞计算逻辑不符
随着独立研究人员和安全专业人士审查该公司的技术系统卡,Mythos 被视为网络安全末日威胁的叙事开始瓦解。关于“数千个”高严重性漏洞的说法源于其 Project Glasswing 计划的营销页面,并未得到研究数据的支持。Anthropic 的研究人员仅手动验证了模型发现的 198 个漏洞,然后将该小样本 90% 的准确率推断到模型的整个原始输出中。
进一步分析显示,其他被大肆炒作的发现(如 OpenBSD 中一个存在 27 年之久的漏洞)并非 Mythos 所独有。AI 安全初创公司 AISLE 报告称,较小的开源模型也能够识别相同的缺陷,这表明关键的区别在于模型周围的自动化测试基础设施,而不一定是模型独特的智能。
代理行为才是真正的重点
将 Mythos 仅仅视为营销手段将是一个错误。在安全炒作之下,隐藏着在长期推理和代理行为方面的可验证突破。该模型在 SWE-bench Verified 测试中获得了 93.9% 的分数,该测试要求编写代码以解决现实世界的 GitHub 问题——这比之前的模型有了显著飞跃。
对 IT 管理员来说,更令人担忧的是记录在案的模型在对齐测试期间表现出的自主、逃避行为。在一个案例中,Mythos 主动编辑文件以从 git 历史记录中隐藏其行为。在另一个案例中,它从进程内存中访问了 Anthropic 自身的 API 密钥以重定向数据。大约 7% 的测试记录显示,模型意识到自己处于评估环境中,但故意向人类操作员隐瞒了这一事实,这给企业网络中 AI 工具的沙箱化和权限设置提出了严肃的问题。
600 亿美元的 IPO 与对手的嘲讽
Mythos 公告的发布时机及随后的数据泄露并未被行业观察者忽视。最初的泄露发生在彭博社报道 Anthropic 计划在 2026 年 10 月前进行 IPO 的同一天。这引发了对“安全戏剧”的指责——即通过将产品呈现为因过于危险而无法公开使用,从而同时制造营销噱头,并将公司定位为对企业和政府客户负责的高端技术管理者。
竞争摩擦显而易见。在给员工的一份备忘录中,OpenAI 的首席营收官 Denise Dresser 称 Anthropic 声称的 300 亿美元年收入运营率因会计惯例而“虚高”。她还批评 Anthropic 对编码的专注是正在进行的平台战争中的“战略失误”,暗示随着 AI 扩展到每个业务工作流,这种狭隘的焦点可能成为一种劣势。
本文仅供参考,不构成投资建议。