AI 精选动态
智能评分 75
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
AI 推荐理由
差异点:指出进化器模型规模并非越大越好,关键在于区分更新编写与使用两个环节,提出中等模型是最优选择,挑战行业当前主要设计模式。核心解读
该论文挑战了将最强大模型置于进化器位置的传统观念,指出编写有用的 harness 更新与从更新中受益两个任务不能混为一谈。实验发现,小型 Qwen3.5-9B 进化器编写的更新帮助效果可与 Claude Opus 4.6 持平,而重要模型更应用于实际解决任务的环节。研究发现,弱模型难以正确加载技能或在长任务中遵循更新,强模型则接近天花板难以受益,中等模型是最佳选择。