AI 精选动态智能评分 78

TERMS-Bench 发布

来源: twitter关注列表

作者: Google Gemma (@googlegemma)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

该基准直接针对真实经济谈判中的 agent 能力，并用环境验证替代 LLM 评判，适合关注 agent 评测与模型选型的人进一步查看。

核心解读

Erica (@ericavaneee) 团队发布 TERMS-Bench，一个用于评测 LLM agents 在真实经济谈判场景中的三层基准。该基准不使用 LLM-as-judge，也不依赖 outcome rubrics，而是由环境本身作为验证器。结果显示，在前沿模型中 AnthropicAI 的 Claude Opus 4.6 排名第 1，Zai_org 的 GLM 5.1 排名第 2；开源权重模型中，GoogleDeepMind 的 Gemma 4 31B 表现最好，并且在谈判难度提升时仍保持竞争力。

#基准测试#智能体#大模型

阅读原始全文