AI 精选动态
智能评分 72
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
AI 推荐理由
适合关注 agent 工程与提示/技能优化的人直接阅读,重点看其“冻结模型、只训练可审计 skill file”的训练范式,以及 52 个案例和 GPT-5.5 上 23.5 分提升的可复现性。核心解读
Microsoft 提出 SkillOpt,用于训练 agent skills:不是更新主模型,而是迭代一个可复用的 skill document。该方法先观察 agent 处理任务时的成功与失败,再由更强的优化器模型提出对 skill 的小幅编辑,并且只在新 skill 通过 held-out check set 时才接受修改,避免 skill 因“看起来合理”的编辑而退化。作者在 6 个 benchmark、7 个目标模型和 3 种 agent 设置(direct chat、Codex、Claude Code)上测试,52 个测试案例中 SkillOpt 全部达到最佳或并列最佳;在 GPT-5.5 的 direct chat 设置下,平均 accuracy 提升 23.5 个百分点。