AI 精选动态
智能评分 78
Agent Arena 上线
AI 推荐理由
值得点开原文看方法设计与五信号指标定义,尤其是其如何把真实会话中的纠错、恢复和工具幻觉纳入因果评估。核心解读
Arena 发布了一个面向真实工作场景的 agent 排行榜,用来衡量 AI 模型完成实际用户任务的能力,而不是孤立基准题。该系统跟踪模型在 web search、文件、terminal 等工具下处理写代码、做应用、研究、写文档、分析文件等任务的表现,并通过因果推断综合 5 个信号:任务成功、赞扬与投诉、纠错跟随、terminal 错误恢复、以及工具幻觉。公开数据规模达到 300K+ 任务、2M+ 次工具调用、40M 行代码;榜单中 GPT-5.5 High 以 +10.7% 净提升领先,Claude Opus 4.7 Thinking 为 +9.5%,GPT-5.4 High 为 +8.9%。