AI 精选动态
智能评分 67
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
AI 推荐理由
这篇的新增点在于把搜索智能体的学习目标从“同时做决策和记忆”改成“只学决策、由外部系统管状态”,且给出了 20B 模型与 held-out benchmarks 上的泛化结果;如果你在做搜索型 agent 或 RL 训练,值得点开看训练分工与状态设计。核心解读
论文《Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses》提出把搜索智能体中的记忆与状态管理从模型内部移到外部 harness 中。作者指出,普通搜索智能体需要在同一上下文里同时完成下一步搜索决策和记录文档、线索、失败路径与剩余检查,而 Harness-1 让模型只负责“搜什么、看什么、验证什么、何时停止”等语义决策,由 harness 维护候选池、整理后的文档、重要性标签、证据链接、验证记录、去重观察和预算感知的记忆渲染。论文称,在一个 20B 模型上,这种拆分带来了更好的搜索表现,并且在 held-out benchmarks 上的收益大于 source-family tasks,表明模型学到的是可复用的搜索行为而不是领域记忆。