返回精选
AI 精选动态 智能评分 67

Natural-Language Agent Harnesses

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-05-23
收录于: 2026-05-23
AI 推荐理由
原文给出了 agent 可靠性从 prompt 转向系统层设计的具体机制,并在 SWE-bench 上描述了 harness 强化后行为与效果并不单调的现象,适合关注 agent 架构与评测的人直接读原文。
核心解读
该论文提出,Agent 的表现不仅取决于 prompt,还更依赖围绕模型的 harness。作者指出,很多 AI agent 的实际行为来自外部控制代码:规划、工具调用、记忆、重试、检查与停止条件等;在长任务中,状态丢失、验证漂移、工具返回部分证据、以及忘记中间产物等问题会导致失败。论文引入 Natural-Language Agent Harnesses,把阶段、角色、契约、状态规则、失败模式和停止条件用结构化自然语言显式描述,由共享 runtime 执行;作者强调这不是用自然语言替代代码,而是让关键设计选择变得可检查、可移植、可测试。在 SWE-bench 上,更重的 harness 会显著改变行为,带来更多调用、工具使用、委派和运行时开销,但结果不是单纯的“越复杂越好”,有时结构化设计能提升效果,有时又会使 agent 偏离最短的基准修复路径。
#智能体#研究突破#开发者工具