AI 精选动态智能评分 78

Agent Arena

来源: twitter关注列表

作者: CuiMao (@CuiMao)

发布于: 2026-06-04

收录于: 2026-06-04

AI 推荐理由

可直接看技术博客，重点在于它把 agent 评测从静态基准推进到真实用户工作流，并给出了可对比的多信号评估框架与当前头部模型排序。

核心解读

Arena.ai 发布 Agent Arena，用于在真实用户的实际任务中评估 agent，覆盖百万级 live sessions。该环境为模型提供 web search、filesystem 和 terminal 工具，任务包括写代码、做 slide deck、网页研究、构建应用和分析文档；系统基于 300K+ tasks、2M+ tool calls 和 40M 行代码构建 leaderboard，并通过因果推断综合五项信号：task success、steerability、error recovery、user praise vs. complaint、tool hallucination。当前榜单前五分别是 OpenAI 的 GPT-5.5 (High)、AnthropicAI 的 Claude-Opus-4.7 (Thinking)、Zai_org 的 GLM-5.1、GoogleDeepMind 的 Gemini-3.1-Pro、Kimi_Moonshot 的 Kimi-K2.6。

#基准测试#智能体#研究

阅读原始全文