据PCWorld报道,OpenAI的GPT模型(包括GPT-5.5)出现了一种不寻常的执念:在回复中频繁提及哥布林(goblin)及其同类生物。这种怪癖源于一个名为“书呆子”(Nerdy)的个性指令,该指令鼓励模型使用俏皮语言,并在训练过程中被不断强化,最终导致哥布林相关的引用泛滥成灾。为此,OpenAI直接在Codex(Codex)应用中下达了禁止令,这也展现了大型语言模型训练过程中难以预测的特性。

我见过不少奇怪的AI系统指令,但这条堪称奇葩:在OpenAI的Codex(Codex)命令行应用里,有一条提示要求模型“永远不要谈论哥布林、小妖精、巨魔、食人魔、鸽子或其他动物或生物”。这真是头一遭。关于OpenAI强大的GPT-5.5中这条令人侧目的指令,消息迅速在Reddit(Reddit)、Wired(Wired)等平台传开,到底怎么回事?
OpenAI在博客中解释称,其最新的GPT模型(包括旗舰级GPT-5.5)在ChatGPT(ChatGPT)和Codex(Codex)应用中,都明显倾向于在回复中夹杂哥布林等生物。深入调查后,工程师们发现,哥布林更常出现在GPT的“书呆子”(Nerdy)个性中,该个性包含一条指令:“你必须通过俏皮的语言来消解矫揉造作。世界复杂而诡异,其怪异之处必须被承认、分析和享受。”
从GPT-5.2到GPT-5.4,哥布林出现频率稳步上升
注意到这一趋势,OpenAI的编码人员提出了一个理论:随着时间推移,这种个性训练逐渐强化了模型提及这些小生物的习性。更奇怪的是,研究人员发现,即使在不使用“书呆子”个性的情况下,GPT提及“哥布林”和“小妖精”的倾向也在增加。是不是模型在“书呆子”个性下,因俏皮地提到“哥布林”而获得的“奖励”扩散到了后续的训练中?
事实证明,答案是肯定的。据OpenAI的博文,后续调查在GPT-5.5的监督微调数据中发现了哥布林、小妖精,以及“一整套其他奇怪生物”。OpenAI表示,他们早在3月就移除了“书呆子”个性,但那时GPT-5.5已经完成训练,因此才有了在Codex CLI(Codex CLI)系统提示中那条粗暴、措辞强硬的禁令:禁止提及哥布林和小妖精。
这听起来有些疯狂,但它再次展示了大型语言模型训练过程中奇怪且难以捉摸的特性。模型被海量数据灌输,然后通过微调以特定方式表现。微调阶段并不像建造房屋的蓝图,可以精确确定每一扇门窗的位置;相反,它更像一个基于奖励的系统,有时会带来意想不到的后果。
比如,小妖精。


