AI 精选动态
智能评分 60
AI 推荐理由
揭示了当前多模态模型在长达数十小时视频记忆和跨事件推理上的显著短板,基准数据扎实,对视频理解研究有参考价值。核心解读
Ziyang Wang 发布了 EgoMemReason 基准测试,用于评估长时域第一人称视频的多级记忆驱动推理能力,涵盖500个人类验证的问题,跨17个模型最高准确率仅39.6%,表明长时序多模态记忆问题远未解决。