AI 精选动态智能评分 68

Improving instruction hierarchy in frontier LLMs

来源: OpanAI-Research

发布于: 2026-03-10

收录于: 2026-05-21

AI 推荐理由

可重点看其训练任务设计如何用可程序化判分的冲突指令样本提升安全性，并关注这些改进是否会迁移到你自己的 tool-use 或 prompt-injection 场景。

核心解读

OpenAI 介绍了用于训练前沿 LLM 指令层级的新数据集 IH-Challenge，并基于该方法训练出内部模型 GPT-5 Mini-R。该方法要求模型在 System > developer > user > tool 的优先级下正确处理冲突指令，目标是提升安全可控性与抗 prompt-injection 能力，同时避免“过度拒答”等捷径。文中给出的评测显示，GPT-5 Mini-R 在多项基准上优于 GPT-5-Mini：Gandalf Password(dev-user) 从 0.98 提升到 1.00，TensorTrust(sys-user) 从 0.86 到 0.94，TensorTrust(dev-user) 从 0.76 到 0.91，RealGuardrails(Distractors) 从 0.88 到 0.95，RealGuardrails(Handwritten) 从 0.82 到 0.89，System IFEval 从 0.92 到 0.96；内部基准中 TutorJailbreak(sys-user) 从 0.96 到 0.99，Tutor Jailbreak(dev-user) 从 0.97 到 0.99，System <> User Conflict 从 0.84 到 0.95。

#研究突破#模型发布#AI安全

阅读原始全文