AI 精选动态
智能评分 63
WBench 上线 ModelScope
AI 推荐理由
可直接查看榜单与数据集细节,用于对比多轮视频世界模型在导航、编辑和相机切换等任务上的差异。核心解读
Meituan_LongCat 开发的 WBench 现在已在 ModelScope 上线,用于评测 Interactive Video World Models 的多轮交互能力。该基准覆盖 289 个案例、1,058 轮交互,评估 20 个顶级模型在 5 个核心维度和 22 项指标上的表现,任务包括 Navigation、Subject Action、Event Editing 和 Camera Switching,并对 Video Quality、Consistency(Scene/Interaction)与 Physics 进行严格评测。导航子项的榜单中,Kling 3.0 以 79.2 居首,LingBot-World 以 78.8 位列第二,Wan 2.7 以 78.5 位列第三。