AI 精选动态智能评分 65

OpenAI 发了一篇技术博客，认真调查了一个荒诞的问题：为什么他们的模型越来越爱说“哥布林”（goblin）和“小精灵”（gremlin）？事情最早在去年 11 月 GPT-5.1 上线后被注意...

来源: twitter关注列表

作者: 宝玉 (@dotey)

发布于: 2026-04-30

收录于: 2026-04-30

AI 推荐理由

通过可复现的案例分析呈现强化学习奖励设计与训练数据反馈循环对模型行为的深层影响，为模型对齐与产品化治理提供实操警示。

核心解读

OpenAI 在技术博客中披露 GPT-5.1 与后续版本出现“哥布林”“小精灵”等词汇异常高发的现象，溯源至 ChatGPT 的 Nerdy 性格在强化学习中因奖励信号偏差导致语言习惯被放大并泛化至全模型。该事件揭示了微小奖励配置可能系统性污染模型输出，并促使 OpenAI 下架相关性格、清洗数据与部署临时抑制策略。

#模型对齐#强化学习#AI治理

阅读原始全文

OpenAI 发了一篇技术博客，认真调查了一个荒诞的问题：为什么他们的模型越来越爱说“哥布林”（goblin）和“小精灵”（gremlin）？ 事情最早在去年 11 月 GPT-5.1 上线后被注意...

OpenAI 发了一篇技术博客，认真调查了一个荒诞的问题：为什么他们的模型越来越爱说“哥布林”（goblin）和“小精灵”（gremlin）？事情最早在去年 11 月 GPT-5.1 上线后被注意...