AI 精选动态智能评分 60

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-26

收录于: 2026-05-26

AI 推荐理由

该方法将软件理解从自然语言问题描述转向测试约束，为编码代理自我训练提供新思路，值得阅读原文了解具体实现细节。

核心解读

Meta、CMU等实验室发表论文提出Self-Play SWE-RL方法，使编码代理能通过在真实项目中制造和修复bug来自我训练。该方法将学习单位从标记任务转为可执行情境，一个模型版本探索真实代码库、削弱测试、注入有意义的bug并留下测试工件；另一个版本需要修复系统以恢复测试行为。相比于传统方法依赖人类编写的问题描述、拉取请求、测试和注释，该方法在SWE-bench Verified上提升10.4分，SWE-Bench Pro上提升7.8分。该研究表明SSR正在学习比问题描述更深层次的软件理解，尽管尚未达到开放式掌 mastery。

#研究突破#智能体#开发者工具

阅读原始全文