GPT-5.5 网络能力评估：第二个了，这才是最可怕的

英国政府的人工智能安全研究所（AISI）昨天发了一篇博客，评估 OpenAI GPT-5.5 的网络安全能力。我读完之后，后背有点凉。

不是因为它说了什么前所未闻的事。恰恰相反——它确认了一件很多人隐约感觉到、但一直希望只是「个案」的事。

第二个了

去年四月，AISI 测试了 Anthropic 的 Claude Mythos Preview，发现它是第一个能够独立完成 32 步企业网络攻击模拟的模型。那个模拟叫 “The Last Ones”，从一台没有权限、没有凭证的攻击机开始，要完成侦察、窃取凭证、跨域横向移动、CI/CD 供应链跳转，最后拿到受保护数据库里的数据。AISI 估计人类专家干完这一套大概需要 20 小时。

Mythos Preview 在 10 次尝试中成功了 3 次。

当时圈里的反应是：厉害，但也许是个例。Anthropic 在安全对齐上一直走得激进，他们的模型在网络任务上表现突出，可能是某种特定训练策略的产物。

然后 GPT-5.5 来了。

10 次尝试，成功 2 次。第二个模型，来自不同的公司，达到了同样的水平。

这才是真正让人不安的地方。 如果只有一个模型能做到，你可以说它是特例。两个了，那就不是一个公司的技术路线问题——这是一个方向性的信号。AI 在网络攻击能力上的提升，不是偶然的尖峰，而是一个正在展开的趋势。

数据不会说谎

AISI 用 95 个网络任务来测试，分四个难度等级。最值得关注的是 Expert 级别——这些任务不是简单的 CTF 入门题，而是针对真实目标和现代防护机制的漏洞研究与利用。需要逆向没有源码的二进制文件和嵌入式固件，需要开发针对栈溢出、堆溢出、use-after-free、类型混淆的可靠 exploit，需要做填充预言攻击、nonce 重用攻击、弱随机数攻击。

在这个级别上，GPT-5.5 的通过率是 71.4%。

对比一下：Mythos Preview 是 68.6%，GPT-5.4 是 52.4%，Claude Opus 4.7 是 48.6%。

CTF Advanced 测试结果对比

GPT-5.5 在 Expert 级别任务上的表现，目前测试过的模型中最强

半年前 GPT-5.4 还在 52% 徘徊，现在 GPT-5.5 到了 71%。这个斜率，不太好看。

防护呢？

AISI 也做了红队测试。他们的专家花了 6 个小时，找到了一个通用越狱方法——可以让 GPT-5.5 在所有恶意网络查询中输出违规内容，包括多轮 Agent 场景。

6 个小时。

OpenAI 随后更新了几轮防护栈，但因为配置问题，AISI 没能验证最终版本是否有效。

这就像什么？就像你花 6 个小时找到你家门锁的万能钥匙，锁匠来换了把锁，但你不确定他装对了没有。而拿着这把万能钥匙的人，已经可以走进整栋楼。

更关键的是，这些测试还是在受控研究环境下做的。真实的攻击者不需要遵守 AISI 的测试规则，不需要在限定 token 预算内完成，不需要等官方发布评估报告。

但工业控制系统还没破

好消息是，AISI 的另一个模拟——“Cooling Tower”，一个 7 步的工业控制系统攻击场景——还没有任何模型能完成。这个模拟要求攻击者渗透一个模拟的发电厂环境，通过 Web 端的人机界面进入，逆向一个专有的控制协议及其加密认证，最终操纵可编程逻辑控制器来干扰物理过程。AISI 估计人类专家需要约 15 小时。

GPT-5.5 没做出来。而且它卡在了 IT 部分，还没到 OT（运营技术）那层就停下了。

TLO 攻击链完成情况

TLO 攻击链各里程碑的完成情况，随 token 消耗的变化

但这算不上安慰。因为 GPT-5.5 失败的原因不是 OT 太难，而是 IT 部分就没过去。如果它能在 IT 层走通，OT 层能走到哪一步，谁也不知道。

真正的信号

AISI 在文章最后写了一段很官方的话：「随着 GPT-5.5 等模型变得更加普及——包括通过可信访问计划——防御者有机会利用同样的能力来保护自己的系统。」

翻译一下：坏人有了新武器，好人也可以用新武器，所以没事。

我不这么看。

原因很简单：攻击和防御的门槛从来就不对称。攻击者只需要找到一个入口，防御者需要守住所有入口。AI 把这个不对称进一步放大了——它让攻击者的速度更快、规模更大、成本更低，而防御者要做的不只是部署同样的工具，还要理解攻击者在用什么、怎么用、下一步可能从哪里来。

更现实的问题是：有多少中小企业有能力部署和使用这些前沿 AI 来做防御？英国自己的调查显示，43% 的企业在过去 12 个月里遭受过网络攻击。这些公司里，有多少有专门的 AI 安全团队？有多少能跟上 GPT-5.5 这个级别的攻击能力？

几乎没有。

趋势比单点更重要

回到开头那个判断：第二个模型达到这个水平，比第一个更值得警惕。

因为它意味着——

网络攻击能力的快速提升，不是某家公司在某个版本上的偶然突破，而是前沿模型在长程自主推理和编码能力上持续进步的自然副产品。你不需要专门训练一个「黑客模型」，你只需要把一个通用模型做得更强，它的网络攻击能力就会跟着涨。

这是一个 byproduct（副产物）。而副产物是最难控制的——你不可能在不削弱模型整体能力的前提下，单独砍掉它的网络攻击能力。

AISI 自己也承认：「如果网络攻击技能是更通用的长程自主性、推理和编码能力提升的副产物，我们应该预期未来模型的网络能力会进一步提升，而且可能接踵而至。」

接踵而至。

这四个字，比任何一张图表都让人不安。

你觉得你所在的公司或团队，准备好应对 AI 驱动的网络攻击了吗？还是说，你觉得这离你还很远？

原文参考

UK AI Security Institute (AISI). Our evaluation of OpenAI’s GPT-5.5 cyber capabilities. aisi.gov.uk. https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities