AI 精选动态智能评分 78

Reasoning models struggle to control their chains of thought, and that’s good

来源: OpanAI-Research

发布于: 2026-03-05

收录于: 2026-05-21

AI 推荐理由

可重点查看其评测设计与失败样例，因为这直接关系到未来 CoT 监控是否会失效，以及后续如何构建更稳健的安全评估。

核心解读

OpenAI 研究了推理模型是否能控制其 chain of thought（CoT）以降低监控可见性，结论是当前前沿推理模型总体都很难可靠地控制 CoT。团队构建了开源评测集 CoT-Control，包含超过 13,000 个任务，基于 GPQA、MMLU-Pro、HLE、BFCL 和 SWE-Bench Verified 等基准组合生成，并在 13 个推理模型上测试。结果显示，前沿模型的 CoT controllability 仅在 0.1% 到 15.4% 之间；这一能力会随模型规模增大而上升，但在推理更长、或经历额外 post-training 后下降。

#研究突破#AI安全#模型发布

阅读原始全文