AI 精选动态智能评分 75

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-05

收录于: 2026-06-05

AI 推荐理由

差异点：指出进化器模型规模并非越大越好，关键在于区分更新编写与使用两个环节，提出中等模型是最优选择，挑战行业当前主要设计模式。

核心解读

该论文挑战了将最强大模型置于进化器位置的传统观念，指出编写有用的 harness 更新与从更新中受益两个任务不能混为一谈。实验发现，小型 Qwen3.5-9B 进化器编写的更新帮助效果可与 Claude Opus 4.6 持平，而重要模型更应用于实际解决任务的环节。研究发现，弱模型难以正确加载技能或在长任务中遵循更新，强模型则接近天花板难以受益，中等模型是最佳选择。

#技术突破#研究#模型

阅读原始全文