AI 精选动态
智能评分 65
Scaling Laws for Agent Harnesses
AI 推荐理由
建议点开原文看 EFC 的定义与实验设置,因为它把 agent harness 调参从经验判断推进到可预测的资源分配问题。核心解读
原文介绍了一项关于 agent harness 的研究,提出 Effective Feedback Compute(EFC)这一坐标,用来只统计 agent 能真正利用的反馈,而不是原始 token 数和 tool call 数。研究显示,原始 token 和 tool-call 数量对 agent 失败的解释度在 R2=0.33 到 0.42,而 EFC 可将这一指标提升到 0.99。文章还指出,在相同 compute 预算下,仅通过重新分配“有用反馈”,成功率可从 0.27 提升到 0.90。