返回精选
AI 精选动态 智能评分 60

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-26
收录于: 2026-05-26
AI 推荐理由
该方法将软件理解从自然语言问题描述转向测试约束,为编码代理自我训练提供新思路,值得阅读原文了解具体实现细节。
核心解读
Meta、CMU等实验室发表论文提出Self-Play SWE-RL方法,使编码代理能通过在真实项目中制造和修复bug来自我训练。该方法将学习单位从标记任务转为可执行情境,一个模型版本探索真实代码库、削弱测试、注入有意义的bug并留下测试工件;另一个版本需要修复系统以恢复测试行为。相比于传统方法依赖人类编写的问题描述、拉取请求、测试和注释,该方法在SWE-bench Verified上提升10.4分,SWE-Bench Pro上提升7.8分。该研究表明SSR正在学习比问题描述更深层次的软件理解,尽管尚未达到开放式掌 mastery。
#研究突破#智能体#开发者工具