数字中国 人工智能 汽车智驾 手机数码 更多 智慧家电 酷玩配件 科技创投 产业+ 攻略

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

IT之家 2026-05-06 09:06:37
A+ A-

4月29日,OpenAI发布博文,复盘发现GPT-5.1系列及后续AI模型出现异常行为,在回答中频繁使用“哥布林”和“小魔怪”等生物隐喻。

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

官方调查后发现,自从GPT-5.1系列发布以来,“哥布林”一词使用率上升了175%,“小魔怪”上升了52%。这一现象并非偶发,而是模型行为被特定奖励信号塑造的结果。

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

调查溯源发现,异常源于“书呆子”人格定制功能的训练过程。该功能仅占ChatGPT总回复量的2.5%,却贡献了66.7%的“哥布林”提及量。审计显示,原本用于鼓励该人格风格的奖励模型,在76.2%的数据集中对包含生物词汇的输出给予了更高评分。

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

技术团队发现,这种行为具有跨场景泛化能力。尽管奖励仅在“书呆子”条件下应用,但强化学习无法保证限制习得行为。随着含生物词汇的输出被用于后续监督微调,模型形成了“奖励-生成-训练”的正反馈循环,导致该行为扩散至其他场景。

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

针对此问题,OpenAI已采取多项措施。技术团队移除了偏好生物词汇的奖励信号,并从训练数据中过滤了包含相关词汇的内容。受限于训练周期,GPT-5.5未能完全规避此问题,开发团队通过添加指令提示进行了缓解。

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

“哥布林”词频暴涨 175%,OpenAI 复盘称 AI 训练奖励机制意外“跑偏”

点击查看全文(剩余0%)

热点新闻

精彩推荐

加载更多……