AI 精选动态智能评分 67

Natural-Language Agent Harnesses

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-23

收录于: 2026-05-23

AI 推荐理由

原文给出了 agent 可靠性从 prompt 转向系统层设计的具体机制，并在 SWE-bench 上描述了 harness 强化后行为与效果并不单调的现象，适合关注 agent 架构与评测的人直接读原文。

核心解读

该论文提出，Agent 的表现不仅取决于 prompt，还更依赖围绕模型的 harness。作者指出，很多 AI agent 的实际行为来自外部控制代码：规划、工具调用、记忆、重试、检查与停止条件等；在长任务中，状态丢失、验证漂移、工具返回部分证据、以及忘记中间产物等问题会导致失败。论文引入 Natural-Language Agent Harnesses，把阶段、角色、契约、状态规则、失败模式和停止条件用结构化自然语言显式描述，由共享 runtime 执行；作者强调这不是用自然语言替代代码，而是让关键设计选择变得可检查、可移植、可测试。在 SWE-bench 上，更重的 harness 会显著改变行为，带来更多调用、工具使用、委派和运行时开销，但结果不是单纯的“越复杂越好”，有时结构化设计能提升效果，有时又会使 agent 偏离最短的基准修复路径。

#智能体#研究突破#开发者工具

阅读原始全文