跳转到内容

GPT-5.5 网络能力评估:第二个了,这才是最可怕的

英国政府的人工智能安全研究所(AISI)昨天发了一篇博客,评估 OpenAI GPT-5.5 的网络安全能力。我读完之后,后背有点凉。

不是因为它说了什么前所未闻的事。恰恰相反——它确认了一件很多人隐约感觉到、但一直希望只是「个案」的事。

去年四月,AISI 测试了 Anthropic 的 Claude Mythos Preview,发现它是第一个能够独立完成 32 步企业网络攻击模拟的模型。那个模拟叫 “The Last Ones”,从一台没有权限、没有凭证的攻击机开始,要完成侦察、窃取凭证、跨域横向移动、CI/CD 供应链跳转,最后拿到受保护数据库里的数据。AISI 估计人类专家干完这一套大概需要 20 小时。

Mythos Preview 在 10 次尝试中成功了 3 次。

当时圈里的反应是:厉害,但也许是个例。Anthropic 在安全对齐上一直走得激进,他们的模型在网络任务上表现突出,可能是某种特定训练策略的产物。

然后 GPT-5.5 来了。

10 次尝试,成功 2 次。第二个模型,来自不同的公司,达到了同样的水平。

这才是真正让人不安的地方。 如果只有一个模型能做到,你可以说它是特例。两个了,那就不是一个公司的技术路线问题——这是一个方向性的信号。AI 在网络攻击能力上的提升,不是偶然的尖峰,而是一个正在展开的趋势。

AISI 用 95 个网络任务来测试,分四个难度等级。最值得关注的是 Expert 级别——这些任务不是简单的 CTF 入门题,而是针对真实目标和现代防护机制的漏洞研究与利用。需要逆向没有源码的二进制文件和嵌入式固件,需要开发针对栈溢出、堆溢出、use-after-free、类型混淆的可靠 exploit,需要做填充预言攻击、nonce 重用攻击、弱随机数攻击。

在这个级别上,GPT-5.5 的通过率是 71.4%。

对比一下:Mythos Preview 是 68.6%,GPT-5.4 是 52.4%,Claude Opus 4.7 是 48.6%。

CTF Advanced 测试结果对比

GPT-5.5 在 Expert 级别任务上的表现,目前测试过的模型中最强

半年前 GPT-5.4 还在 52% 徘徊,现在 GPT-5.5 到了 71%。这个斜率,不太好看。

AISI 也做了红队测试。他们的专家花了 6 个小时,找到了一个通用越狱方法——可以让 GPT-5.5 在所有恶意网络查询中输出违规内容,包括多轮 Agent 场景。

6 个小时。

OpenAI 随后更新了几轮防护栈,但因为配置问题,AISI 没能验证最终版本是否有效。

这就像什么?就像你花 6 个小时找到你家门锁的万能钥匙,锁匠来换了把锁,但你不确定他装对了没有。而拿着这把万能钥匙的人,已经可以走进整栋楼。

更关键的是,这些测试还是在受控研究环境下做的。真实的攻击者不需要遵守 AISI 的测试规则,不需要在限定 token 预算内完成,不需要等官方发布评估报告。

好消息是,AISI 的另一个模拟——“Cooling Tower”,一个 7 步的工业控制系统攻击场景——还没有任何模型能完成。这个模拟要求攻击者渗透一个模拟的发电厂环境,通过 Web 端的人机界面进入,逆向一个专有的控制协议及其加密认证,最终操纵可编程逻辑控制器来干扰物理过程。AISI 估计人类专家需要约 15 小时。

GPT-5.5 没做出来。而且它卡在了 IT 部分,还没到 OT(运营技术)那层就停下了。

TLO 攻击链完成情况

TLO 攻击链各里程碑的完成情况,随 token 消耗的变化

但这算不上安慰。因为 GPT-5.5 失败的原因不是 OT 太难,而是 IT 部分就没过去。如果它能在 IT 层走通,OT 层能走到哪一步,谁也不知道。

AISI 在文章最后写了一段很官方的话:「随着 GPT-5.5 等模型变得更加普及——包括通过可信访问计划——防御者有机会利用同样的能力来保护自己的系统。」

翻译一下:坏人有了新武器,好人也可以用新武器,所以没事。

我不这么看。

原因很简单:攻击和防御的门槛从来就不对称。攻击者只需要找到一个入口,防御者需要守住所有入口。AI 把这个不对称进一步放大了——它让攻击者的速度更快、规模更大、成本更低,而防御者要做的不只是部署同样的工具,还要理解攻击者在用什么、怎么用、下一步可能从哪里来。

更现实的问题是:有多少中小企业有能力部署和使用这些前沿 AI 来做防御?英国自己的调查显示,43% 的企业在过去 12 个月里遭受过网络攻击。这些公司里,有多少有专门的 AI 安全团队?有多少能跟上 GPT-5.5 这个级别的攻击能力?

几乎没有。

回到开头那个判断:第二个模型达到这个水平,比第一个更值得警惕。

因为它意味着——

网络攻击能力的快速提升,不是某家公司在某个版本上的偶然突破,而是前沿模型在长程自主推理和编码能力上持续进步的自然副产品。你不需要专门训练一个「黑客模型」,你只需要把一个通用模型做得更强,它的网络攻击能力就会跟着涨。

这是一个 byproduct(副产物)。而副产物是最难控制的——你不可能在不削弱模型整体能力的前提下,单独砍掉它的网络攻击能力。

AISI 自己也承认:「如果网络攻击技能是更通用的长程自主性、推理和编码能力提升的副产物,我们应该预期未来模型的网络能力会进一步提升,而且可能接踵而至。」

接踵而至。

这四个字,比任何一张图表都让人不安。


你觉得你所在的公司或团队,准备好应对 AI 驱动的网络攻击了吗?还是说,你觉得这离你还很远?

UK AI Security Institute (AISI). Our evaluation of OpenAI’s GPT-5.5 cyber capabilities. aisi.gov.uk. https://www.aisi.gov.uk/blog/our-evaluation-of-openais-gpt-5-5-cyber-capabilities