AI 精选动态
智能评分 67
Quantifying infrastructure noise in agentic coding evals
AI 推荐理由
建议点开原文,重点看资源上限如何改变 Terminal-Bench 结论,以及是否需要在内部评测中显式记录 CPU 和 RAM 配置。核心解读
一篇关于 agentic coding 评测基础设施噪声的分析指出,SWE-bench 和 Terminal-Bench 这类基准的分数差距常只有几个百分点,但底层资源配置本身就能造成超过这一幅度的变化。作者团队在 Google Kubernetes Engine 上运行 Terminal-Bench 2.0 时发现,严格执行任务资源规格时,pod 错误率高达 6%,其中不少与模型能力无关;在六种资源配置下,资源从 1x 提升到 uncapped 后,成功率总提升 6 个百分点,infra 错误率从 5.8% 降到 0.5%,而 1x 到 3x 之间的成功率波动不显著(p=0.40),3x 到 uncapped 之间则额外提升近 4 个百分点。文中还提到,Terminal-Bench 2.0 在最新 2.0 版本中为每个任务建议 CPU 和 RAM,而不同 sandboxing 实现会改变基准实际测量的内容;在 `bn-fit-modify` 等任务上,宽松资源允许安装 `pandas`、`networkx`、`scikit-learn` 等依赖,否则可能在写代码前就因内存不足失败。