AI 精选动态
智能评分 70
AI 推荐理由
该基准揭示了智能体在实际社交交互中的关键短板,对模型研发和商业落地具有重要参考价值。核心解读
Microsoft Research 推出 SocialReasoning‑Bench 基准,评估 AI 智能体在日历协调和市场谈判等社交场景中的用户利益最大化能力,发现主流模型虽能完成任务,却常未能为用户争取最佳价值。