2026年,你的代码有一半可能不是你写的——而且你根本看不出来。
Simon Willison(Django联合创始人、Datasette作者)前几天在Heavybit的播客里说了句大实话:他发现自己已经不再审查Claude生成的每一行代码了。不是不想,是做不到。当Agent一小时能产出两百行代码变成两千行的时候,所谓的”代码审查”就成了一个笑话。
这不是某个极客的过度焦虑。这篇播客的讨论在Hacker News上炸出了671条评论、619个点赞——说明整个行业都卡在了同一个问题上:AI写代码的速度,正在以一种我们没准备好面对的方式,击穿软件开发流程中每一个依赖”人”的环节。
我信任AI生成的代码,但AI不会为自己的代码负责
Simon在播客里讲了一个场景,我觉得每一个正在用AI写生产代码的人都能代入:
他让Claude Code写一个JSON API端点,跑个SQL查询然后把结果输出成JSON。Claude搞定了,加上了自动化测试,写好了文档,一切都完美。但Simon没看那些代码。
“如果我没审查代码,我还能负责任地把这东西用到生产环境吗?”
他后来想通了——在大公司里,你依赖其他团队写的组件时,也不会去通读对方的每一行代码。你会看文档、跑几次功能测试,没问题就用了。直到出问题才去翻Git记录。他把AI Agent也当成这样一个”可疑但目前为止没出过问题的外包团队”。
区别在哪?一个外包团队有职业声誉要维护,他们会因为写出垃圾代码而丢掉下一个合同。Claude Code没有这个约束。它昨天帮你写出了完美的SQL查询,不代表明天不会在支付逻辑里埋一个灾难性的bug。
每天200行变成2000行,整个流程都崩了
Simon提出了一个敏锐的观察:整个软件开发生命周期的设计,是建立在”一天写几百行代码”这个前提上的。现在这个前提不存在了。
这个连锁反应从最上游就开始了。Anthropic的设计负责人Jenny Wen说过,传统设计流程如此冗长细致,是因为一旦设计稿交到工程师手里,他们要用三个月来开发,搞错了就是灾难。但如果三个月变成三天呢?设计流程里那些繁重的校验、原型、用户测试,有多少是被”开发成本太高”这个假设逼出来的?
下游的问题更实在。Git仓库里有100个commit、漂亮的README、全面的测试覆盖——这在以前几乎等于”这个项目很靠谱”。现在半小时就能糊一个看起来一模一样的出来。Simon说他自己都分不清自己哪个项目是真的用心做的、哪个是AI五分钟吐出来的。
代码量的暴增没有减少bug——它只是让bug藏得更深了。
真正让我在意的是:你到底用没用过这个东西?
Simon在文章里说了句挺实在的判断标准:
“我更看重的是,有没有人真正使用过这个东西。如果一个vibe coded的东西你连续用了两周,那比一个刚用AI喷出来的、几乎没跑过的项目有价值得多。”
这话听着简单,但比任何代码质量指标都更本质。代码写得再漂亮,没在实际场景里接受过毒打,就只是一堆漂亮的字符串。AI可以在语法上零错误、测试覆盖率100%、文档写得出神入化——但它不知道这些代码拿到真实用户面前会发生什么。
Agentic Engineering的下一步:接受失控,但要学会驾驭
文章里提出的一个核心区分是:
– Vibe Coding:让AI写、AI跑、出了问题AI修,你全程不看代码。适合个人工具、单次脚本。
– Agentic Engineering:你仍然是那个有25年经验的工程师,只是AI把你的产出放大了一个数量级。
但问题是,这两个东西正在模糊。当Agent生成的基础设施代码(SQL查询、API端点、样板测试)确实几乎不出错时,你凭什么还要每行都看?你凭什么让自己的效率停在人类的速度?
Simon自己也没有答案。他只是承认了这个现实,并把它摊开来说了。
写在最后
如果你也在用AI写生产代码,有几点我觉得值得记住:
1. 信任是积累的,不是默认的。让Agent从小任务开始证明自己,逐步扩大范围
2. 不审查代码不等于不测试。端到端测试、冒烟测试、线上监控,这些比人工代码审查更能兜底
3. 代码量不是生产力指标。2000行一天看起来很美,但可能只是2000行技术债
4. 真实使用是最好的测试。你每天在用的东西,比所有CI pipeline加起来都可靠
AI写代码这件事已经回不去了。问题不是”要不要让AI写”,而是”当你的速度变成了10倍,你的判断力能不能跟上”。
参考:Simon Willison, “Vibe coding and agentic engineering are getting closer than I’d like”, May 6, 2026