OpenAI的GPT模型沉迷哥布林，禁令也无法阻止的小妖精执念

据PCWorld报道，OpenAI的GPT模型（包括GPT-5.5）出现了一种不寻常的执念：在回复中频繁提及哥布林（goblin）及其同类生物。这种怪癖源于一个名为“书呆子”（Nerdy）的个性指令，该指令鼓励模型使用俏皮语言，并在训练过程中被不断强化，最终导致哥布林相关的引用泛滥成灾。为此，OpenAI直接在Codex（Codex）应用中下达了禁止令，这也展现了大型语言模型训练过程中难以预测的特性。

我见过不少奇怪的AI系统指令，但这条堪称奇葩：在OpenAI的Codex（Codex）命令行应用里，有一条提示要求模型“永远不要谈论哥布林、小妖精、巨魔、食人魔、鸽子或其他动物或生物”。这真是头一遭。关于OpenAI强大的GPT-5.5中这条令人侧目的指令，消息迅速在Reddit（Reddit）、Wired（Wired）等平台传开，到底怎么回事？

OpenAI在博客中解释称，其最新的GPT模型（包括旗舰级GPT-5.5）在ChatGPT（ChatGPT）和Codex（Codex）应用中，都明显倾向于在回复中夹杂哥布林等生物。深入调查后，工程师们发现，哥布林更常出现在GPT的“书呆子”（Nerdy）个性中，该个性包含一条指令：“你必须通过俏皮的语言来消解矫揉造作。世界复杂而诡异，其怪异之处必须被承认、分析和享受。”

从GPT-5.2到GPT-5.4，哥布林出现频率稳步上升

注意到这一趋势，OpenAI的编码人员提出了一个理论：随着时间推移，这种个性训练逐渐强化了模型提及这些小生物的习性。更奇怪的是，研究人员发现，即使在不使用“书呆子”个性的情况下，GPT提及“哥布林”和“小妖精”的倾向也在增加。是不是模型在“书呆子”个性下，因俏皮地提到“哥布林”而获得的“奖励”扩散到了后续的训练中？

事实证明，答案是肯定的。据OpenAI的博文，后续调查在GPT-5.5的监督微调数据中发现了哥布林、小妖精，以及“一整套其他奇怪生物”。OpenAI表示，他们早在3月就移除了“书呆子”个性，但那时GPT-5.5已经完成训练，因此才有了在Codex CLI（Codex CLI）系统提示中那条粗暴、措辞强硬的禁令：禁止提及哥布林和小妖精。

这听起来有些疯狂，但它再次展示了大型语言模型训练过程中奇怪且难以捉摸的特性。模型被海量数据灌输，然后通过微调以特定方式表现。微调阶段并不像建造房屋的蓝图，可以精确确定每一扇门窗的位置；相反，它更像一个基于奖励的系统，有时会带来意想不到的后果。

比如，小妖精。

搜索结果如下

阅读全文

OpenAI的GPT模型沉迷哥布林，禁令也无法阻止的小妖精执念

从GPT-5.2到GPT-5.4，哥布林出现频率稳步上升

也可以看看

AMD首款16核PRO处理器曝光，Ryzen 9 PRO 9965X3D搭载3D V-Cache能效惊人

阅读全文

《暗影蜘蛛侠》引入冷门反派兆瓦，电视剧选角策略大获成功

阅读全文

台积电A16 1.6纳米技术将开启埃米时代，2026年量产

阅读全文