AI 精选动态
智能评分 74
Terminal-Bench Science
AI 推荐理由
值得点开原文查看任务设计、评测方式和 Harbor Task Format,因为它明确给出了可复现的科学工作流基准构建流程与投稿机制,适合评估或对齐自家科研代理任务。核心解读
Terminal-Bench Science 发布了一个面向自然科学真实计算工作流的 AI agents 基准,目标是评估模型在科学研究中的工具使用与任务执行能力。项目面向 life sciences、physical sciences、earth sciences,并同时开放 mathematical sciences 等领域的任务贡献,计划覆盖 100+ benchmark tasks;任务需来自真实研究工作流、可通过 containerized environments 和 deterministic pytest-based evaluation 进行程序化验证。项目明确表示这不是训练数据,而是用于评测 frontier model performances,且希望新任务在发布时实现 10–20% 的 solve rate;贡献者若合入任务可获得论文署名。按说明,任务提交通道会持续开放到 2026 年 8 月,流程包括 Discord 沟通、Task Proposal Form 提案、以及 Harbor Task Format 的实现提交。