AI 精选动态智能评分 67

NanoGPT-Bench

来源: twitter关注列表

作者: elvis (@omarsar0)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

原文给出了可复现的评测设定、算力预算和三款代码智能体的量化表现，适合关注 agentic R&D 能力边界的人直接看方法与基线结果。

核心解读

Intology 发布了 NanoGPT-Bench，用于评测代码智能体在开放式 AI R&D 任务上的表现，基于 NanoGPT Speedrun 基准，要求智能体在无人工干预、无互联网访问的情况下，从截至 2025 年 9 月 3 日的人类世界纪录出发，恢复接下来 2025 年 9 月 3 日到 2026 年 1 月 19 日约 5 个月的人类进展。作者对 Claude Code、Codex 和 Autoresearch 进行了测试，每个基线都获得 512 H100 GPU hours 的算力预算、最多运行 1 周，分别尝试了 455、399 和 321 个不同训练变体，但恢复的人类进展都不到 10%。其中 Autoresearch、vanilla Claude Code（Opus 4.6 Max）和 Codex（GPT 5.4 xhigh）分别达到 9.3%、8.2% 和 8.6%，作者还指出这些智能体主要把算力花在超参数调优上，而很少进行算法研究。

#基准测试#智能体#研究突破

阅读原始全文