AI 精选动态
智能评分 66
EvalScope 支持 Agent 评测
AI 推荐理由
如果你在做 agent 评测或 benchmark 自动化,这个更新值得点开原文看它如何把现有基准改造成多轮任务,以及 trace 回放和安全沙箱的接入方式。核心解读
ModelScope Community 的 EvalScope 新增 Agent Evaluation Mode,可将 GSM8K、AIME、IFEval、SWE-Bench 等标准基准通过一行配置转成多轮 agentic 任务。新模式引入 AgentLoop,支持 Function-Calling、ReAct、SWE-Bench 协议切换,记录每一步、错误和工具调用,并可在 Web-Dashboard 回放;Shell 和 Python 工具可通过 Docker 与 ms-enclave 安全运行。