AI 精选动态
智能评分 67
NanoGPT-Bench
AI 推荐理由
原文给出了可复现的评测设定、算力预算和三款代码智能体的量化表现,适合关注 agentic R&D 能力边界的人直接看方法与基线结果。核心解读
Intology 发布了 NanoGPT-Bench,用于评测代码智能体在开放式 AI R&D 任务上的表现,基于 NanoGPT Speedrun 基准,要求智能体在无人工干预、无互联网访问的情况下,从截至 2025 年 9 月 3 日的人类世界纪录出发,恢复接下来 2025 年 9 月 3 日到 2026 年 1 月 19 日约 5 个月的人类进展。作者对 Claude Code、Codex 和 Autoresearch 进行了测试,每个基线都获得 512 H100 GPU hours 的算力预算、最多运行 1 周,分别尝试了 455、399 和 321 个不同训练变体,但恢复的人类进展都不到 10%。其中 Autoresearch、vanilla Claude Code(Opus 4.6 Max)和 Codex(GPT 5.4 xhigh)分别达到 9.3%、8.2% 和 8.6%,作者还指出这些智能体主要把算力花在超参数调优上,而很少进行算法研究。