AI 精选动态智能评分 67

Scaling Test-Time Compute for Agentic Coding

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-23

收录于: 2026-05-23

AI 推荐理由

给出了长链路编码智能体的测试时扩展新思路，并且在 SWE-Bench Verified 与 Terminal-Bench v2.0 上提供了明确提升数据，适合关注 agent 记忆与 rollouts 选择机制的人直接读原文。

核心解读

Meta 的论文提出，编程智能体在测试时扩展能力时，不应主要依赖更多尝试，而应把每次尝试压缩为可复用的短摘要，再用这些摘要来筛选候选和指导新一轮尝试。论文将完整尝试中的文件读取、shell 命令、错误、部分修复和放弃思路总结为主要假设、部分进展与失败点，并用 tournament 风格的选择方法在小组内比较摘要。作者在 2 个困难编程基准上验证该方法：通过并行运行多次尝试、先筛选摘要再启动新的尝试，使 Claude 4.5 Opus 在 SWE-Bench Verified 上从 70.9% 提升到 77.6%，在 Terminal-Bench v2.0 上从 46.9% 提升到 59.1%。

#研究突破#智能体#基准测试

阅读原始全文