Frontier AI 杀死 CTF 了吗？一个安全竞赛老手的真实观察

发表于2026年5月17日作者 zoran

2026年5月，Hacker News 上一篇帖子炸了锅——1987个赞，1165条评论。Mitchell Hashimoto（对，就是 Vagrant 和 Terraform 的作者）说了一句让整个硅谷沉默的话：

> “我坚信有些公司正处于严重的 AI 妄想症中，已经没法跟它们理性讨论这件事了。”

几乎同一时间，安全圈里一篇题为 “The CTF Scene Is Dead” 的文章也在疯传。作者 Kabir Acharya 不是什么门外汉——他从2021年开始打 CTF，拿过 DownUnderCTF 冠军，效力过国际顶尖战队 TheHackersCrew，常年在 CTFTime 全球排名前十。他的结论更直接：**开放 CTF 赛制已经被前沿 AI 彻底摧毁了。**

这两个信号放在一起看，有意思了。

## 事情是怎么发生的

要说清楚这个问题，得先理解 CTF（Capture The Flag）是什么——它本质上是安全领域的一场”人肉奥林匹克”。出题人花几周时间设计一个漏洞，选手们花几十个小时逆向分析、写 exp，最后拿到 flag。分数榜代表的是人类对底层系统的理解深度。

GPT-4 刚出来那会儿，大家发现中等难度的题目开始可以被”一句话解决”——你把一个密码学题粘贴进去，十分钟后答案出来了。但那时大家没太当回事，毕竟高难度题它搞不定。

**转折点出现在 Claude Opus 4.5。**

Opus 4.5 的能力直接把门槛拉到了另一个层次：几乎所有中等难度和部分高难度题目，都可以被 agent 自动化解决。搭配 Claude Code 和 MCP 工具链，你甚至可以在 CTF 开始的第一个小时就跑一轮 AI 解题，然后只做它没解出来的题。

到了 GPT-5.5 和 GPT-5.5 Pro，情况更夸张了。作者明确说：

> “5.5 Pro 有能力在 48 小时的 CTF 中，搞定 HackTheBox 上 Insane 难度的 active leakless heap pwn 题目。”

翻译成人话就是：**大多数小型 CTF 出题人花几周设计的题目，大模型几小时内就能拆掉。**

## 分数榜不再衡量人类能力

这是一个残酷但无法回避的事实：CTFTime 2026 年的排名和往年已经完全不是一个东西了。排名衡量的不再是你的逆向功底、堆风水理解、或者密码学直觉——它衡量的是你的 AI 编排能力，和你愿意花多少 token 去烧题。

那些传奇战队要么不打了，要么打得人越来越少，要么冲不进前十。Plaid CTF 这种级别的比赛都不办了。

这不是什么”有 AI 辅助所以效率更高”的逻辑——这就像给每个国际象棋选手配一个 Stockfish 并在比赛中随便用。那不是辅助，那是换了个游戏。

## 出题人陷入两难

我观察到出题方其实在拼命反抗：故意设计对 LLM 不友好的问题，加各种奇怪的噪音和反模式。但这只会让题目变得”猜谜化”或者”过度工程化”——人类选手解起来体验更差，而 AI 也只是暂时受阻。以前沿模型迭代的速度，这道防火墙撑不了太久。

更根本的问题是：**如果你设计的题目连 AI 都难解，那人类选手怎么学？**

学习的本质是”可触及的挑战”——题应该难，但你能感觉到自己在进步。如果分数榜被 AI 刷屏，新人要么同样用 AI 加速然后跳过学习过程，要么眼睁睁看着自己在榜单上毫无存在感。这两种情况都不会产生真正的安全工程师。

## 我的看法

我自己也在大量使用 AI 辅助编程和调试，包括写这篇博客也是在 Claude Code 的半辅助下完成的。但我从来不觉得 AI 做我的工作和 AI 替代我的思考是一回事。

对于 CTF 这件事，最让我认同的一段话来自 Kabir 的文章结尾：

> “CTF 的损失不是一块分数板。它是从新手好奇心到顶尖竞技的那把梯子。它是挑战设计的匠心。它是你深刻理解某个东西后真正靠自己解决它的那种感觉。”

安全圈需要新的竞赛形态——可能是在封闭环境里确保纯人力的比赛，也可能是某种”AI 必须交报告解释推理过程”的新赛制。把头埋进沙子里假装一切如常，只会让这个行业失去它最重要的东西：**一批真正理解系统底层的人。**

我不确定 CTF 会变成什么样，但我确定的是——假装分数榜仍然有意义，是一种危险的自欺欺人。