AI 精选动态
智能评分 68
ESI-Bench
AI 推荐理由
适合点开原文看基准设计与实验设置,尤其是 action blindness、3D grounding 与 random multi-view 的对比结论,可直接迁移到 embodied agent 评测与训练。核心解读
由 Yining Hong、Jiageng Liu、Han Yin、Manling Li、Leonidas Guibas、Li Fei-Fei、Jiajun Wu、Yejin Choi 等人提出的 ESI-BENCH,旨在衡量 embodied spatial intelligence 中的 perception-action loop。该基准构建在 OmniGibson 上,覆盖 10 个任务类别和 29 个子类别,要求智能体在 perception、locomotion、manipulation 之间做动作选择与序列编排,以主动累积任务相关证据。作者在多种 state-of-the-art MLLMs 上做了实验,发现主动探索明显优于被动方案;random multi-view 虽然消耗更多图像,但往往增加噪声而非信号。结果还显示,失败主要来自 action blindness;显式 3D grounding 在深度敏感任务上能稳定推理,但不完美的 3D 表示反而比 2D 基线更有害。人类研究进一步表明,模型会在证据不足时过早且高置信度地下结论,与人类会寻找反证视角并根据矛盾修正判断不同。