AI 精选动态
智能评分 60
腾讯混元开源PlanningBench评估LLM规划能力
AI 推荐理由
PlanningBench填补了当前LLM规划能力评估空白,提供可验证的30+真实任务,开发者可直接用于模型评估和训练提升。核心解读
腾讯混元联合人民大学高瓴人工智能学院开源了PlanningBench框架,用于评估和训练大语言模型的真实规划能力。该框架包含30多个真实世界规划任务,涵盖调度、生产、旅行、资源分配、应急响应等六大类别,每个任务都有明确的成功标准和全自动验证机制,可用于模型评估和继续微调,也已在arXiv、GitHub和Hugging Face上开放。