返回精选
AI 精选动态 智能评分 78

Agent Arena

来源: twitter关注列表
作者: CuiMao (@CuiMao)
发布于: 2026-06-04
收录于: 2026-06-04
AI 推荐理由
可直接看技术博客,重点在于它把 agent 评测从静态基准推进到真实用户工作流,并给出了可对比的多信号评估框架与当前头部模型排序。
核心解读
Arena.ai 发布 Agent Arena,用于在真实用户的实际任务中评估 agent,覆盖百万级 live sessions。该环境为模型提供 web search、filesystem 和 terminal 工具,任务包括写代码、做 slide deck、网页研究、构建应用和分析文档;系统基于 300K+ tasks、2M+ tool calls 和 40M 行代码构建 leaderboard,并通过因果推断综合五项信号:task success、steerability、error recovery、user praise vs. complaint、tool hallucination。当前榜单前五分别是 OpenAI 的 GPT-5.5 (High)、AnthropicAI 的 Claude-Opus-4.7 (Thinking)、Zai_org 的 GLM-5.1、GoogleDeepMind 的 Gemini-3.1-Pro、Kimi_Moonshot 的 Kimi-K2.6。
#基准测试#智能体#研究