AI 精选动态智能评分 67

Quantifying infrastructure noise in agentic coding evals

来源: Anthropic-engineering

发布于: 2026-02-05

收录于: 2026-05-21

AI 推荐理由

建议点开原文，重点看资源上限如何改变 Terminal-Bench 结论，以及是否需要在内部评测中显式记录 CPU 和 RAM 配置。

核心解读

一篇关于 agentic coding 评测基础设施噪声的分析指出，SWE-bench 和 Terminal-Bench 这类基准的分数差距常只有几个百分点，但底层资源配置本身就能造成超过这一幅度的变化。作者团队在 Google Kubernetes Engine 上运行 Terminal-Bench 2.0 时发现，严格执行任务资源规格时，pod 错误率高达 6%，其中不少与模型能力无关；在六种资源配置下，资源从 1x 提升到 uncapped 后，成功率总提升 6 个百分点，infra 错误率从 5.8% 降到 0.5%，而 1x 到 3x 之间的成功率波动不显著（p=0.40），3x 到 uncapped 之间则额外提升近 4 个百分点。文中还提到，Terminal-Bench 2.0 在最新 2.0 版本中为每个任务建议 CPU 和 RAM，而不同 sandboxing 实现会改变基准实际测量的内容；在 `bn-fit-modify` 等任务上，宽松资源允许安装 `pandas`、`networkx`、`scikit-learn` 等依赖，否则可能在写代码前就因内存不足失败。

#基准测试#研究突破#基础设施

阅读原始全文