返回精选
AI 精选动态 智能评分 78

TERMS-Bench 发布

来源: twitter关注列表
作者: Google Gemma (@googlegemma)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
该基准直接针对真实经济谈判中的 agent 能力,并用环境验证替代 LLM 评判,适合关注 agent 评测与模型选型的人进一步查看。
核心解读
Erica (@ericavaneee) 团队发布 TERMS-Bench,一个用于评测 LLM agents 在真实经济谈判场景中的三层基准。该基准不使用 LLM-as-judge,也不依赖 outcome rubrics,而是由环境本身作为验证器。结果显示,在前沿模型中 AnthropicAI 的 Claude Opus 4.6 排名第 1,Zai_org 的 GLM 5.1 排名第 2;开源权重模型中,GoogleDeepMind 的 Gemma 4 31B 表现最好,并且在谈判难度提升时仍保持竞争力。
#基准测试#智能体#大模型