返回精选
AI 精选动态 智能评分 72

来源: twitter关注列表
作者: Z.ai (@Zai_org)
发布于: 2026-05-17
收录于: 2026-05-17
AI 推荐理由
该基准聚焦智能体在经济谈判中的可验证行为能力,对评估模型的对手建模、协议鲁棒性和商业场景应用潜力有参考价值。
核心解读
Erica 发布 TERMS-Bench,这是一个面向真实经济谈判场景的三层 LLM 智能体基准,采用环境本身作为验证器,而不是 LLM-as-judge 或结果打分规则。基准结果显示 Claude Opus 4.6 在前沿模型中排名第一,Z.ai 的 GLM 5.1 第二,Gemma 4 31B 是表现最好的开源权重模型。
#智能体#基准测试#模型评测