AI 精选动态
智能评分 67
Scaling Test-Time Compute for Agentic Coding
AI 推荐理由
给出了长链路编码智能体的测试时扩展新思路,并且在 SWE-Bench Verified 与 Terminal-Bench v2.0 上提供了明确提升数据,适合关注 agent 记忆与 rollouts 选择机制的人直接读原文。核心解读
Meta 的论文提出,编程智能体在测试时扩展能力时,不应主要依赖更多尝试,而应把每次尝试压缩为可复用的短摘要,再用这些摘要来筛选候选和指导新一轮尝试。论文将完整尝试中的文件读取、shell 命令、错误、部分修复和放弃思路总结为主要假设、部分进展与失败点,并用 tournament 风格的选择方法在小组内比较摘要。作者在 2 个困难编程基准上验证该方法:通过并行运行多次尝试、先筛选摘要再启动新的尝试,使 Claude 4.5 Opus 在 SWE-Bench Verified 上从 70.9% 提升到 77.6%,在 Terminal-Bench v2.0 上从 46.9% 提升到 59.1%。