Frontier AI 杀死 CTF 了吗?一个安全竞赛老手的真实观察

2026年5月,Hacker News 上一篇帖子炸了锅——1987个赞,1165条评论。Mitchell Hashimoto(对,就是 Vagrant 和 Terraform 的作者)说了一句让整个硅谷沉默的话:

> “我坚信有些公司正处于严重的 AI 妄想症中,已经没法跟它们理性讨论这件事了。”

几乎同一时间,安全圈里一篇题为 “The CTF Scene Is Dead” 的文章也在疯传。作者 Kabir Acharya 不是什么门外汉——他从2021年开始打 CTF,拿过 DownUnderCTF 冠军,效力过国际顶尖战队 TheHackersCrew,常年在 CTFTime 全球排名前十。他的结论更直接:**开放 CTF 赛制已经被前沿 AI 彻底摧毁了。**

这两个信号放在一起看,有意思了。

## 事情是怎么发生的

要说清楚这个问题,得先理解 CTF(Capture The Flag)是什么——它本质上是安全领域的一场”人肉奥林匹克”。出题人花几周时间设计一个漏洞,选手们花几十个小时逆向分析、写 exp,最后拿到 flag。分数榜代表的是人类对底层系统的理解深度。

GPT-4 刚出来那会儿,大家发现中等难度的题目开始可以被”一句话解决”——你把一个密码学题粘贴进去,十分钟后答案出来了。但那时大家没太当回事,毕竟高难度题它搞不定。

**转折点出现在 Claude Opus 4.5。**

Opus 4.5 的能力直接把门槛拉到了另一个层次:几乎所有中等难度和部分高难度题目,都可以被 agent 自动化解决。搭配 Claude Code 和 MCP 工具链,你甚至可以在 CTF 开始的第一个小时就跑一轮 AI 解题,然后只做它没解出来的题。

到了 GPT-5.5 和 GPT-5.5 Pro,情况更夸张了。作者明确说:

> “5.5 Pro 有能力在 48 小时的 CTF 中,搞定 HackTheBox 上 Insane 难度的 active leakless heap pwn 题目。”

翻译成人话就是:**大多数小型 CTF 出题人花几周设计的题目,大模型几小时内就能拆掉。**

## 分数榜不再衡量人类能力

这是一个残酷但无法回避的事实:CTFTime 2026 年的排名和往年已经完全不是一个东西了。排名衡量的不再是你的逆向功底、堆风水理解、或者密码学直觉——它衡量的是你的 AI 编排能力,和你愿意花多少 token 去烧题。

那些传奇战队要么不打了,要么打得人越来越少,要么冲不进前十。Plaid CTF 这种级别的比赛都不办了。

这不是什么”有 AI 辅助所以效率更高”的逻辑——这就像给每个国际象棋选手配一个 Stockfish 并在比赛中随便用。那不是辅助,那是换了个游戏。

## 出题人陷入两难

我观察到出题方其实在拼命反抗:故意设计对 LLM 不友好的问题,加各种奇怪的噪音和反模式。但这只会让题目变得”猜谜化”或者”过度工程化”——人类选手解起来体验更差,而 AI 也只是暂时受阻。以前沿模型迭代的速度,这道防火墙撑不了太久。

更根本的问题是:**如果你设计的题目连 AI 都难解,那人类选手怎么学?**

学习的本质是”可触及的挑战”——题应该难,但你能感觉到自己在进步。如果分数榜被 AI 刷屏,新人要么同样用 AI 加速然后跳过学习过程,要么眼睁睁看着自己在榜单上毫无存在感。这两种情况都不会产生真正的安全工程师。

## 我的看法

我自己也在大量使用 AI 辅助编程和调试,包括写这篇博客也是在 Claude Code 的半辅助下完成的。但我从来不觉得 AI 做我的工作和 AI 替代我的思考是一回事。

对于 CTF 这件事,最让我认同的一段话来自 Kabir 的文章结尾:

> “CTF 的损失不是一块分数板。它是从新手好奇心到顶尖竞技的那把梯子。它是挑战设计的匠心。它是你深刻理解某个东西后真正靠自己解决它的那种感觉。”

安全圈需要新的竞赛形态——可能是在封闭环境里确保纯人力的比赛,也可能是某种”AI 必须交报告解释推理过程”的新赛制。把头埋进沙子里假装一切如常,只会让这个行业失去它最重要的东西:**一批真正理解系统底层的人。**

我不确定 CTF 会变成什么样,但我确定的是——假装分数榜仍然有意义,是一种危险的自欺欺人。