返回精选
AI 精选动态 智能评分 60

好行为泛化研究

来源: twitter关注列表
作者: Orange AI (@oran_ge)
发布于: 2026-06-20
收录于: 2026-06-20
AI 推荐理由
与已知的涌现失调(坏行为泛化)相反,OpenAI 证明好行为同样可通过 RL 泛化,且对抗攻击下更稳定,值得阅读原文了解实验设计。
核心解读
OpenAI 通过 RL 训练模型在健康等特定领域展现诚实、认知谦逊等好行为,发现该行为泛化到 44 个未见评测领域,显著降低了欺骗、谄媚等不良输出,且模型在对抗性攻击下更稳健。
全文
This tweet has been promoted to the English, Japanese, and Korean worlds Feel the power of new multilingual recommendation algorithms! > **引用原帖 Orange AI (@oran_ge):** > OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 > 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergent misalignment(涌现失调): > 一个模型如果在训练时被教着做一件坏事,比如写不安全的代码,它会自己泛化到其他领域,包括健康、教育、科学、法律等等。也就是说,坏行为会被泛化。 > OpenAI 把问题反过来想:那好行为会不会也泛化? > 如果训练模型在一个领域表现得诚实、透明、谦逊、可纠正,它会不会在别的领域也变得更好? > 于是他们造了一批贴近现实的对话数据,专门测这些特质: > -诚实 > -认知谦逊(epistemic humility,就是"我不确定"的时候能说出来) > -元认知透明(能解释自己的思考过程) > -可纠正性(corrigibility,被指错能认) > -普遍的公平 > -对人的关心 > 数据覆盖健康、教育、科学、法律、工程这些领域。 > 然后用 RL 训练,只混进去一小部分这种数据,其余还是常规训练数据。 > 实验结束后,有三个核心发现: > 第一,在训练领域内,模型确实变得更诚实、更透明、更容易认错。 > 第二,在训练领域外,44 个独立的、训练时没见过的评测上,模型都变好了。欺骗、谄媚、reward hacking、有害建议……全都降了。甚至就算只拿健康数据训练,非健康领域也变好了。 > 第三,这种改变在对抗压力下时也表现得更有韧性。不管是 adversarial prompt 还是恶意微调,都更难把它推向坏行为。而且模型并没有变得"不可塑造",正常指令它还是听的,只是对坏的方向变固执了。 > 这篇论文的启示是,RL 不仅可以强化代码,也可以强化道德。 > 也许对齐超级 AI 没有想象中那么复杂,只对齐底层逻辑就有很好的效果。 > 这跟人是很像的,人的各种行为在其底层存在一致性,通过一些小事就能看到一个人的底色。 > 很有意思。 > 论文地址:https://t.co/CYbVf3GEFV > https://x.com/oran_ge/status/2067739166331552179
#技术突破#AI安全#研究