AI 精选动态智能评分 66

EvalScope 支持 Agent 评测

来源: twitter关注列表

作者: ModelScope (@ModelScope2022)

发布于: 2026-05-21

收录于: 2026-05-21

AI 推荐理由

如果你在做 agent 评测或 benchmark 自动化，这个更新值得点开原文看它如何把现有基准改造成多轮任务，以及 trace 回放和安全沙箱的接入方式。

核心解读

ModelScope Community 的 EvalScope 新增 Agent Evaluation Mode，可将 GSM8K、AIME、IFEval、SWE-Bench 等标准基准通过一行配置转成多轮 agentic 任务。新模式引入 AgentLoop，支持 Function-Calling、ReAct、SWE-Bench 协议切换，记录每一步、错误和工具调用，并可在 Web-Dashboard 回放；Shell 和 Python 工具可通过 Docker 与 ms-enclave 安全运行。

#开发者工具#智能体#基准测试

阅读原始全文