4月29日,OpenAI发布博文,复盘发现GPT-5.1系列及后续AI模型出现异常行为,在回答中频繁使用“哥布林”和“小魔怪”等生物隐喻。

官方调查后发现,自从GPT-5.1系列发布以来,“哥布林”一词使用率上升了175%,“小魔怪”上升了52%。这一现象并非偶发,而是模型行为被特定奖励信号塑造的结果。

调查溯源发现,异常源于“书呆子”人格定制功能的训练过程。该功能仅占ChatGPT总回复量的2.5%,却贡献了66.7%的“哥布林”提及量。审计显示,原本用于鼓励该人格风格的奖励模型,在76.2%的数据集中对包含生物词汇的输出给予了更高评分。

技术团队发现,这种行为具有跨场景泛化能力。尽管奖励仅在“书呆子”条件下应用,但强化学习无法保证限制习得行为。随着含生物词汇的输出被用于后续监督微调,模型形成了“奖励-生成-训练”的正反馈循环,导致该行为扩散至其他场景。

针对此问题,OpenAI已采取多项措施。技术团队移除了偏好生物词汇的奖励信号,并从训练数据中过滤了包含相关词汇的内容。受限于训练周期,GPT-5.5未能完全规避此问题,开发团队通过添加指令提示进行了缓解。


点击查看全文(剩余0%)