AI 精选动态
智能评分 65
AI 推荐理由
提出了将评分标准作为策略执行、反馈和记忆的共享接口这一新范式,是强化学习在复杂AI任务中应用的方法论创新。核心解读
Google团队发布RubricEM框架,通过rubric引导的强化学习训练深度研究智能体,解决长文本研究任务中缺乏可验证奖励的问题,使智能体能通过阶段感知规划和基于反思的元策略演进提升性能。