AI 精选动态智能评分 60

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-08

收录于: 2026-06-08

AI 推荐理由

该研究颠覆了“模型 brilliance 决定成功”的直觉，表明在长时程研究任务中，持续测试和反馈利用才是关键，为评估和改进代理提供新视角。

核心解读

斯坦福、麻省理工、英伟达、谷歌等顶尖实验室提出 AutoLab 基准，包含 36 项任务，让 17 款强大模型在固定时间内从弱代码开始进行改进。实验显示，模型的首次想法质量不是成功的主要预测因子，而持续测试、及时利用反馈才是关键，Claude Opus 4.6 凭借这一特质在基准中领先。其他前沿模型要么在时间剩余时提前退出，要么思考过长导致超时未提交有效结果，说明持久性优于一时的 brilliance。

#研究突破#基准测试#技术报告

阅读原始全文