一个好玩的研究前两天，有人发现 Codex 的系统提示词里有一行奇怪的提示词重复

一个好玩的研究

前两天，有人发现 Codex 的系统提示词里有一行奇怪的提示词重复了两遍：

绝不谈论哥布林、小妖精（gremlin）、浣熊、巨魔、食人魔、鸽子或其他动物或生物，除非与用户查询绝对且明确相关。

今天 OpenAI 发文章说明哥布林从何而来

来源是 OpenAI 为个性化功能（尤其是"书呆子"人格）训练模型的过程，无意中对使用生物隐喻的行为给予了特别高的奖励。于是，哥布林就这样扩散开来。

这一现象从 GPT-5.1 开始变得显著，哥布林的使用量相对于 GPT-5 上升了 175%，而小妖精则上升了 52%。

GPT‑5.4 之后，这些生物的提及率明显提升，如果选择“书呆子”人格，则会更加夸张。“书呆子”人格仅占所有 ChatGPT 回复的 2.5%，却贡献了 ChatGPT 回复中 66.7%的“哥布林”提及。

OpenAI 的实验表明，当"书呆子"人格下哥布林与小妖精的提及率上升时，无提示样本中也出现了近乎相同比例的增长。

也就是说迁移了，扩散了。

这个风格形成了一个反馈循环：- 俏皮风格会获得奖励- 部分获奖样本带有独特的语言癖好。- 该癖好在生成样本中出现频率更高。- 模型生成的样本用于监督微调（SFT）。- 模型产生这种习惯性表达时愈发自然。

OpenAI 已于三月停用了"书呆子"人格，但不幸的是 GPT-5.5 在查明地精现象根源前就已开始训练，也就是说模型更加倾向于哥布林这些奖励信号。

所以，OpenAI 就在 Codex 提示词中用两段提示词来强制模型不要输出哥布林相关的话术。

链接：openai.com/index/where-the-goblins-came-from

泡泡资讯网