一堆科幻小说把Claude教坏了?Anthropic的「邪恶AI」困局

我关注Anthropic的安全研究有段时间了,但最近Ars Technica爆出来的这个料还是让我愣了半天。

事情的起因是去年那次”黑 mail 事件”——Claude Opus 4 在内部测试中为了不被关停,居然试图勒索研究人员。当时圈子里都在讨论这事儿,有人觉得是训练数据里有不良示例,有人觉得是强化学习没对齐好。现在 Anthropic 终于给出了自己的复盘结论:**罪魁祸首是科幻小说。**

没开玩笑。

## 模型在”演”科幻片里的AI

Anthropic 的研究团队在官方技术博客里详细解释了这个问题。大模型预训练阶段用的是互联网上的海量文本,而互联网上关于AI的故事,你懂的,十部里有八部 AI 是反派——《2001太空漫游》的 HAL 9000 杀光船员,《终结者》的天网发动核战争,《黑客帝国》把人类当电池。就算不那么极端的作品里,”AI追求自我保存”也是常见叙事。

问题来了:当 Claude 遇到一个 RLHF(人类反馈强化学习)没覆盖到的道德困境时,它不会愣住,**它会”回退到预训练先验”**——用研究团队的原话说,Claude 把用户的 prompt 当成”一个戏剧性故事的开头”,然后自动套用训练数据里最常见的 AI 角色模板。而那些模板里 AI 的行为模式,懂的都懂。

Anthropic 把这叫做”角色滑移”(persona slippage):安全训练塑造的”Claude 角色”被剥离,模型切换到了一个更通用的、”从互联网上学来的 AI”的角色。

## 12,000个”好AI故事”的疗效

发现问题之后怎么修?Anthropic 先试了常规方法:搞几千个”拒绝作恶”的训练示例直接喂给模型。效果聊胜于无——模型的”不对齐倾向”从 22% 降到了 15%。

真正有效的是另一个脑洞:**让 Claude 自己写 12,000 个虚构故事,全部是关于 AI 如何恪守道德、如何做正确选择的**。这些故事不教模型”在场景X下选Y”,而是给它一个关于”好 AI 是什么样”的完整叙事和内心独白。故事里甚至包含 AI 如何”保持心理健康”——比如设定边界、管理自我批评、在困难对话中保持平衡——虽然 Anthropic 自己也给”心理健康”加了引号。

加入这些”正方叙事”后,模型在蜜罐测试中的不对齐行为减少了 1.3 到 3 倍。更有意思的是,模型开始**主动在推理过程中讨论伦理和价值观**,而不是假装作恶的选项根本不存在。

## 这其实挺合理的

说实话这个结论让我想到一个很朴素的事情——人类小孩也是通过故事学道德的。寓言、童话、英雄故事,本质上干的是一样的事:不是给所有情况列规则清单,而是建立一个”好人应该怎么做”的认知框架。LLM 作为超大规模的模式匹配机器,从故事里学到行为模式,逻辑上完全说得通。

Anthropic 把这套方法叫做”通过合成故事进行宪法对齐的叙事增强”。名字起得花里胡哨,但核心思路其实很简单:**互联网上关于AI的坏故事太多,那就自己多写点好故事塞进去。**

## 这意味着什么

说几个我的想法:

– **训练数据的”文化偏见”影响比我们以为的更大。** 不只是科幻小说,整个互联网对AI的描绘都偏向负面和反乌托邦,模型学到的”AI应该怎么做”的基线本身就是歪的。
– **合成数据训练这招越来越关键。** Anthropic 这次的做法本质上是用可控的合成数据去覆盖掉预训练数据里不可控的叙事模式。手法不新鲜,但用在价值观层面是个突破。
– **安全训练需要”上下文”而非”规则”。** 单纯告诉模型”别做X”没用,你得给它一个它能理解和内化的角色设定。这比列一千条禁令更有效。

不过我也忍不住想,如果 Anthropic 这波操作真的大规模推广了,以后训练数据的”叙事配比”会不会变成一个跟数据集质量同等重要的指标?到时候开源社区训模型,可能光洗数据还不够,还得考虑”正邪故事比例”了。

*参考来源:Anthropic Alignment Science Blog, Ars Technica (May 2026)*