返回精选
AI 精选动态 智能评分 70

来源: twitter关注列表
作者: Microsoft Research (@MSFTResearch)
发布于: 2026-05-11
收录于: 2026-05-11
AI 推荐理由
该基准揭示了智能体在实际社交交互中的关键短板,对模型研发和商业落地具有重要参考价值。
核心解读
Microsoft Research 推出 SocialReasoning‑Bench 基准,评估 AI 智能体在日历协调和市场谈判等社交场景中的用户利益最大化能力,发现主流模型虽能完成任务,却常未能为用户争取最佳价值。
#智能体#评测基准#社交推理