AI 精选动态
智能评分 68
Claude’s extended thinking
AI 推荐理由
这篇补充了可见思维链、thinking budget 和 agent 场景评测三项关键信息,适合关注推理能力与可解释性权衡的人直接读原文。核心解读
Anthropic 介绍了 Claude 3.7 Sonnet 的“extended thinking mode”,用户可开关该模式,开发者还能设置“thinking budget”来控制模型在单个问题上思考多久。该能力不是切换到另一个模型,而是让同一模型分配更多时间和算力;Anthropic 同时将其原始思维过程以 research preview 形式公开,并指出这会带来可观测性、对齐研究价值,也会引入 faithfulness、越狱策略泄露和未来模型隐藏思维等安全风险。Anthropic 还给出 agent 场景测试,称 Claude 3.7 Sonnet 在 computer use 和 OSWorld 评测上较前代 Claude 3.5 Sonnet 表现更好,且随着交互步数增加优势扩大。