AI 精选动态
智能评分 64
Agent Arena 实时排行榜
AI 推荐理由
值得点开方法博客,重点看其如何用因果推断把真实会话信号转成可比较的 agent 评测,以及这套指标是否能替代或补充现有基准。核心解读
Arena.ai 发布 Agent Arena,用真实用户的百万级在线会话评估模型的 agent 表现,而不是依赖合成基准。该方法基于因果推断,统计 5 个信号:任务成功率、用户表扬/投诉、可引导性、bash 错误恢复和工具幻觉。当前排行榜前 5 名分别是 GPT-5.5 (High)、Claude Opus 4.7 (Thinking)、GLM-5.1、Gemini-3.1-Pro、Kimi-K2.6;该快照基于 300K+ 任务、2M+ 工具调用和单周 40M 行代码。