返回精选
AI 精选动态 智能评分 78

Agent Arena 上线

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-06-05
收录于: 2026-06-05
AI 推荐理由
值得点开原文看方法设计与五信号指标定义,尤其是其如何把真实会话中的纠错、恢复和工具幻觉纳入因果评估。
核心解读
Arena 发布了一个面向真实工作场景的 agent 排行榜,用来衡量 AI 模型完成实际用户任务的能力,而不是孤立基准题。该系统跟踪模型在 web search、文件、terminal 等工具下处理写代码、做应用、研究、写文档、分析文件等任务的表现,并通过因果推断综合 5 个信号:任务成功、赞扬与投诉、纠错跟随、terminal 错误恢复、以及工具幻觉。公开数据规模达到 300K+ 任务、2M+ 次工具调用、40M 行代码;榜单中 GPT-5.5 High 以 +10.7% 净提升领先,Claude Opus 4.7 Thinking 为 +9.5%,GPT-5.4 High 为 +8.9%。
#基准测试#智能体#技术报告