AI 精选动态智能评分 60

腾讯混元开源PlanningBench评估LLM规划能力

来源: twitter关注列表

作者: Berryxia.AI (@berryxia)

发布于: 2026-06-05

收录于: 2026-06-05

AI 推荐理由

PlanningBench填补了当前LLM规划能力评估空白，提供可验证的30+真实任务，开发者可直接用于模型评估和训练提升。

核心解读

腾讯混元联合人民大学高瓴人工智能学院开源了PlanningBench框架，用于评估和训练大语言模型的真实规划能力。该框架包含30多个真实世界规划任务，涵盖调度、生产、旅行、资源分配、应急响应等六大类别，每个任务都有明确的成功标准和全自动验证机制，可用于模型评估和继续微调，也已在arXiv、GitHub和Hugging Face上开放。

#开源#技术突破#智能体

阅读原始全文