返回精选
AI 精选动态 智能评分 74

Terminal-Bench Science

来源: twitter关注列表
作者: Thomas Wolf (@Thom_Wolf)
发布于: 2026-05-20
收录于: 2026-05-20
AI 推荐理由
值得点开原文查看任务设计、评测方式和 Harbor Task Format,因为它明确给出了可复现的科学工作流基准构建流程与投稿机制,适合评估或对齐自家科研代理任务。
核心解读
Terminal-Bench Science 发布了一个面向自然科学真实计算工作流的 AI agents 基准,目标是评估模型在科学研究中的工具使用与任务执行能力。项目面向 life sciences、physical sciences、earth sciences,并同时开放 mathematical sciences 等领域的任务贡献,计划覆盖 100+ benchmark tasks;任务需来自真实研究工作流、可通过 containerized environments 和 deterministic pytest-based evaluation 进行程序化验证。项目明确表示这不是训练数据,而是用于评测 frontier model performances,且希望新任务在发布时实现 10–20% 的 solve rate;贡献者若合入任务可获得论文署名。按说明,任务提交通道会持续开放到 2026 年 8 月,流程包括 Discord 沟通、Task Proposal Form 提案、以及 Harbor Task Format 的实现提交。
#基准测试#智能体#研究突破