AI 精选动态智能评分 74

LongCat 发布 WBench

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-02

收录于: 2026-06-02

AI 推荐理由

可直接用来判断视频生成模型在“看起来好”和“真正可控”之间的差距，适合关注世界模型评测方法和后续基准演进的人点开原文。

核心解读

LongCat 发布了用于视频世界模型测试的 WBench，把评测重点从“画面好看”转向可控性、多人轮交互记忆、指令遵循和物理合理性。WBench 覆盖 289 个案例、1,058 轮交互、20 个模型、5 个维度和 22 个自动指标，测试场景包括导航、主体动作、事件编辑、视角切换以及双视角。作者指出，在这 20 个被评测模型中，没有任何一个模型能在视频质量、场景一致性、交互遵循、长程记忆和物理约束上全面占优；其中导航能力与视觉质量、一致性和物理性几乎没有相关性。

#基准测试#多模态#研究

阅读原始全文