返回精选
AI 精选动态 智能评分 66

EvalScope 支持 Agent 评测

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-05-21
收录于: 2026-05-21
AI 推荐理由
如果你在做 agent 评测或 benchmark 自动化,这个更新值得点开原文看它如何把现有基准改造成多轮任务,以及 trace 回放和安全沙箱的接入方式。
核心解读
ModelScope Community 的 EvalScope 新增 Agent Evaluation Mode,可将 GSM8K、AIME、IFEval、SWE-Bench 等标准基准通过一行配置转成多轮 agentic 任务。新模式引入 AgentLoop,支持 Function-Calling、ReAct、SWE-Bench 协议切换,记录每一步、错误和工具调用,并可在 Web-Dashboard 回放;Shell 和 Python 工具可通过 Docker 与 ms-enclave 安全运行。
#开发者工具#智能体#基准测试