Vibe Coding 正在杀死代码审查：当AI写代码的速度超过你读代码的速度

发表于2026年5月7日作者 zoran

2026年，你的代码有一半可能不是你写的——而且你根本看不出来。

Simon Willison（Django联合创始人、Datasette作者）前几天在Heavybit的播客里说了句大实话：他发现自己已经不再审查Claude生成的每一行代码了。不是不想，是做不到。当Agent一小时能产出两百行代码变成两千行的时候，所谓的”代码审查”就成了一个笑话。

这不是某个极客的过度焦虑。这篇播客的讨论在Hacker News上炸出了671条评论、619个点赞——说明整个行业都卡在了同一个问题上：AI写代码的速度，正在以一种我们没准备好面对的方式，击穿软件开发流程中每一个依赖”人”的环节。

我信任AI生成的代码，但AI不会为自己的代码负责

Simon在播客里讲了一个场景，我觉得每一个正在用AI写生产代码的人都能代入：

他让Claude Code写一个JSON API端点，跑个SQL查询然后把结果输出成JSON。Claude搞定了，加上了自动化测试，写好了文档，一切都完美。但Simon没看那些代码。

“如果我没审查代码，我还能负责任地把这东西用到生产环境吗？”

他后来想通了——在大公司里，你依赖其他团队写的组件时，也不会去通读对方的每一行代码。你会看文档、跑几次功能测试，没问题就用了。直到出问题才去翻Git记录。他把AI Agent也当成这样一个”可疑但目前为止没出过问题的外包团队”。

区别在哪？一个外包团队有职业声誉要维护，他们会因为写出垃圾代码而丢掉下一个合同。Claude Code没有这个约束。它昨天帮你写出了完美的SQL查询，不代表明天不会在支付逻辑里埋一个灾难性的bug。

每天200行变成2000行，整个流程都崩了

Simon提出了一个敏锐的观察：整个软件开发生命周期的设计，是建立在”一天写几百行代码”这个前提上的。现在这个前提不存在了。

这个连锁反应从最上游就开始了。Anthropic的设计负责人Jenny Wen说过，传统设计流程如此冗长细致，是因为一旦设计稿交到工程师手里，他们要用三个月来开发，搞错了就是灾难。但如果三个月变成三天呢？设计流程里那些繁重的校验、原型、用户测试，有多少是被”开发成本太高”这个假设逼出来的？

下游的问题更实在。Git仓库里有100个commit、漂亮的README、全面的测试覆盖——这在以前几乎等于”这个项目很靠谱”。现在半小时就能糊一个看起来一模一样的出来。Simon说他自己都分不清自己哪个项目是真的用心做的、哪个是AI五分钟吐出来的。

代码量的暴增没有减少bug——它只是让bug藏得更深了。

真正让我在意的是：你到底用没用过这个东西？

Simon在文章里说了句挺实在的判断标准：

“我更看重的是，有没有人真正使用过这个东西。如果一个vibe coded的东西你连续用了两周，那比一个刚用AI喷出来的、几乎没跑过的项目有价值得多。”

这话听着简单，但比任何代码质量指标都更本质。代码写得再漂亮，没在实际场景里接受过毒打，就只是一堆漂亮的字符串。AI可以在语法上零错误、测试覆盖率100%、文档写得出神入化——但它不知道这些代码拿到真实用户面前会发生什么。

Agentic Engineering的下一步：接受失控，但要学会驾驭

文章里提出的一个核心区分是：

– Vibe Coding：让AI写、AI跑、出了问题AI修，你全程不看代码。适合个人工具、单次脚本。
– Agentic Engineering：你仍然是那个有25年经验的工程师，只是AI把你的产出放大了一个数量级。

但问题是，这两个东西正在模糊。当Agent生成的基础设施代码（SQL查询、API端点、样板测试）确实几乎不出错时，你凭什么还要每行都看？你凭什么让自己的效率停在人类的速度？

Simon自己也没有答案。他只是承认了这个现实，并把它摊开来说了。

写在最后

如果你也在用AI写生产代码，有几点我觉得值得记住：

1. 信任是积累的，不是默认的。让Agent从小任务开始证明自己，逐步扩大范围
2. 不审查代码不等于不测试。端到端测试、冒烟测试、线上监控，这些比人工代码审查更能兜底
3. 代码量不是生产力指标。2000行一天看起来很美，但可能只是2000行技术债
4. 真实使用是最好的测试。你每天在用的东西，比所有CI pipeline加起来都可靠

AI写代码这件事已经回不去了。问题不是”要不要让AI写”，而是”当你的速度变成了10倍，你的判断力能不能跟上”。

参考：Simon Willison, “Vibe coding and agentic engineering are getting closer than I’d like”, May 6, 2026