AI 精选动态
智能评分 78
Reasoning models struggle to control their chains of thought, and that’s good
AI 推荐理由
可重点查看其评测设计与失败样例,因为这直接关系到未来 CoT 监控是否会失效,以及后续如何构建更稳健的安全评估。核心解读
OpenAI 研究了推理模型是否能控制其 chain of thought(CoT)以降低监控可见性,结论是当前前沿推理模型总体都很难可靠地控制 CoT。团队构建了开源评测集 CoT-Control,包含超过 13,000 个任务,基于 GPQA、MMLU-Pro、HLE、BFCL 和 SWE-Bench Verified 等基准组合生成,并在 13 个推理模型上测试。结果显示,前沿模型的 CoT controllability 仅在 0.1% 到 15.4% 之间;这一能力会随模型规模增大而上升,但在推理更长、或经历额外 post-training 后下降。