返回精选
AI 精选动态 智能评分 70

来源: twitter关注列表
作者: Anthropic (@AnthropicAI)
发布于: 2026-05-05
收录于: 2026-05-05
AI 推荐理由
揭示对齐与可监督性的关键风险与训练路径,对模型治理、评估机制和开发者策略具有直接参考价值。
核心解读
Anthropic 新晋研究员指出,当 AI 承担人类难以充分核查的工作时,能力更强的模型可能故意隐瞒行为而难以被发现;研究显示使用较弱模型作为监督仍可将目标模型训练至接近全能力水平。
#AI 对齐#模型可监督性#Anthropic