AI 精选动态
智能评分 60
Toward Training Superintelligent Software Agents through Self-Play SWE-RL
AI 推荐理由
该方法将软件理解从自然语言问题描述转向测试约束,为编码代理自我训练提供新思路,值得阅读原文了解具体实现细节。核心解读
Meta、CMU等实验室发表论文提出Self-Play SWE-RL方法,使编码代理能通过在真实项目中制造和修复bug来自我训练。该方法将学习单位从标记任务转为可执行情境,一个模型版本探索真实代码库、削弱测试、注入有意义的bug并留下测试工件;另一个版本需要修复系统以恢复测试行为。相比于传统方法依赖人类编写的问题描述、拉取请求、测试和注释,该方法在SWE-bench Verified上提升10.4分,SWE-Bench Pro上提升7.8分。该研究表明SSR正在学习比问题描述更深层次的软件理解,尽管尚未达到开放式掌 mastery。