返回精选
AI 精选动态 智能评分 67

NanoGPT-Bench

来源: twitter关注列表
作者: elvis (@omarsar0)
发布于: 2026-05-20
收录于: 2026-05-20
AI 推荐理由
原文给出了可复现的评测设定、算力预算和三款代码智能体的量化表现,适合关注 agentic R&D 能力边界的人直接看方法与基线结果。
核心解读
Intology 发布了 NanoGPT-Bench,用于评测代码智能体在开放式 AI R&D 任务上的表现,基于 NanoGPT Speedrun 基准,要求智能体在无人工干预、无互联网访问的情况下,从截至 2025 年 9 月 3 日的人类世界纪录出发,恢复接下来 2025 年 9 月 3 日到 2026 年 1 月 19 日约 5 个月的人类进展。作者对 Claude Code、Codex 和 Autoresearch 进行了测试,每个基线都获得 512 H100 GPU hours 的算力预算、最多运行 1 周,分别尝试了 455、399 和 321 个不同训练变体,但恢复的人类进展都不到 10%。其中 Autoresearch、vanilla Claude Code(Opus 4.6 Max)和 Codex(GPT 5.4 xhigh)分别达到 9.3%、8.2% 和 8.6%,作者还指出这些智能体主要把算力花在超参数调优上,而很少进行算法研究。
#基准测试#智能体#研究突破