AI 精选动态智能评分 74

Terminal-Bench Science

来源: twitter关注列表

作者: Thomas Wolf (@Thom_Wolf)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

值得点开原文查看任务设计、评测方式和 Harbor Task Format，因为它明确给出了可复现的科学工作流基准构建流程与投稿机制，适合评估或对齐自家科研代理任务。

核心解读

Terminal-Bench Science 发布了一个面向自然科学真实计算工作流的 AI agents 基准，目标是评估模型在科学研究中的工具使用与任务执行能力。项目面向 life sciences、physical sciences、earth sciences，并同时开放 mathematical sciences 等领域的任务贡献，计划覆盖 100+ benchmark tasks；任务需来自真实研究工作流、可通过 containerized environments 和 deterministic pytest-based evaluation 进行程序化验证。项目明确表示这不是训练数据，而是用于评测 frontier model performances，且希望新任务在发布时实现 10–20% 的 solve rate；贡献者若合入任务可获得论文署名。按说明，任务提交通道会持续开放到 2026 年 8 月，流程包括 Discord 沟通、Task Proposal Form 提案、以及 Harbor Task Format 的实现提交。

#基准测试#智能体#研究突破

阅读原始全文