- AI HOT 精选动态

AI 精选动态智能评分 72

来源: twitter关注列表

作者: Z.ai (@Zai_org)

发布于: 2026-05-17

收录于: 2026-05-17

AI 推荐理由

该基准聚焦智能体在经济谈判中的可验证行为能力，对评估模型的对手建模、协议鲁棒性和商业场景应用潜力有参考价值。

核心解读

Erica 发布 TERMS-Bench，这是一个面向真实经济谈判场景的三层 LLM 智能体基准，采用环境本身作为验证器，而不是 LLM-as-judge 或结果打分规则。基准结果显示 Claude Opus 4.6 在前沿模型中排名第一，Z.ai 的 GLM 5.1 第二，Gemma 4 31B 是表现最好的开源权重模型。

#智能体#基准测试#模型评测

阅读原始全文