AI 精选动态
智能评分 72
AI 推荐理由
该基准聚焦智能体在经济谈判中的可验证行为能力,对评估模型的对手建模、协议鲁棒性和商业场景应用潜力有参考价值。核心解读
Erica 发布 TERMS-Bench,这是一个面向真实经济谈判场景的三层 LLM 智能体基准,采用环境本身作为验证器,而不是 LLM-as-judge 或结果打分规则。基准结果显示 Claude Opus 4.6 在前沿模型中排名第一,Z.ai 的 GLM 5.1 第二,Gemma 4 31B 是表现最好的开源权重模型。