返回精选
AI 精选动态 智能评分 74

LongCat 发布 WBench

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-06-02
收录于: 2026-06-02
AI 推荐理由
可直接用来判断视频生成模型在“看起来好”和“真正可控”之间的差距,适合关注世界模型评测方法和后续基准演进的人点开原文。
核心解读
LongCat 发布了用于视频世界模型测试的 WBench,把评测重点从“画面好看”转向可控性、多人轮交互记忆、指令遵循和物理合理性。WBench 覆盖 289 个案例、1,058 轮交互、20 个模型、5 个维度和 22 个自动指标,测试场景包括导航、主体动作、事件编辑、视角切换以及双视角。作者指出,在这 20 个被评测模型中,没有任何一个模型能在视频质量、场景一致性、交互遵循、长程记忆和物理约束上全面占优;其中导航能力与视觉质量、一致性和物理性几乎没有相关性。
#基准测试#多模态#研究