AI 精选动态
智能评分 60
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?
AI 推荐理由
该研究颠覆了“模型 brilliance 决定成功”的直觉,表明在长时程研究任务中,持续测试和反馈利用才是关键,为评估和改进代理提供新视角。核心解读
斯坦福、麻省理工、英伟达、谷歌等顶尖实验室提出 AutoLab 基准,包含 36 项任务,让 17 款强大模型在固定时间内从弱代码开始进行改进。实验显示,模型的首次想法质量不是成功的主要预测因子,而持续测试、及时利用反馈才是关键,Claude Opus 4.6 凭借这一特质在基准中领先。其他前沿模型要么在时间剩余时提前退出,要么思考过长导致超时未提交有效结果,说明持久性优于一时的 brilliance。