泡泡资讯网

一个好玩的研究前两天,有人发现 Codex 的系统提示词里有一行奇怪的提示词重复

一个好玩的研究

前两天,有人发现 Codex 的系统提示词里有一行奇怪的提示词重复了两遍:

绝不谈论哥布林、小妖精(gremlin)、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非与用户查询绝对且明确相关。

今天 OpenAI 发文章说明哥布林从何而来

来源是 OpenAI 为个性化功能(尤其是"书呆子"人格)训练模型的过程,无意中对使用生物隐喻的行为给予了特别高的奖励。于是,哥布林就这样扩散开来。

这一现象从 GPT-5.1 开始变得显著,哥布林的使用量相对于 GPT-5 上升了 175%,而小妖精则上升了 52%。

GPT‑5.4 之后,这些生物的提及率明显提升,如果选择“书呆子”人格,则会更加夸张。“书呆子”人格仅占所有 ChatGPT 回复的 2.5%,却贡献了 ChatGPT 回复中 66.7%的“哥布林”提及。

OpenAI 的实验表明,当"书呆子"人格下哥布林与小妖精的提及率上升时,无提示样本中也出现了近乎相同比例的增长。

也就是说迁移了,扩散了。

这个风格形成了一个反馈循环:- 俏皮风格会获得奖励- 部分获奖样本带有独特的语言癖好。- 该癖好在生成样本中出现频率更高。- 模型生成的样本用于监督微调(SFT)。- 模型产生这种习惯性表达时愈发自然。

OpenAI 已于三月停用了"书呆子"人格,但不幸的是 GPT-5.5 在查明地精现象根源前就已开始训练,也就是说模型更加倾向于哥布林这些奖励信号。

所以,OpenAI 就在 Codex 提示词中用两段提示词来强制模型不要输出哥布林相关的话术。

链接:openai.com/index/where-the-goblins-came-from