AI 精选动态智能评分 68

ESI-Bench

来源: twitter关注列表

作者: AK (@_akhaliq)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

适合点开原文看基准设计与实验设置，尤其是 action blindness、3D grounding 与 random multi-view 的对比结论，可直接迁移到 embodied agent 评测与训练。

核心解读

由 Yining Hong、Jiageng Liu、Han Yin、Manling Li、Leonidas Guibas、Li Fei-Fei、Jiajun Wu、Yejin Choi 等人提出的 ESI-BENCH，旨在衡量 embodied spatial intelligence 中的 perception-action loop。该基准构建在 OmniGibson 上，覆盖 10 个任务类别和 29 个子类别，要求智能体在 perception、locomotion、manipulation 之间做动作选择与序列编排，以主动累积任务相关证据。作者在多种 state-of-the-art MLLMs 上做了实验，发现主动探索明显优于被动方案；random multi-view 虽然消耗更多图像，但往往增加噪声而非信号。结果还显示，失败主要来自 action blindness；显式 3D grounding 在深度敏感任务上能稳定推理，但不完美的 3D 表示反而比 2D 基线更有害。人类研究进一步表明，模型会在证据不足时过早且高置信度地下结论，与人类会寻找反证视角并根据矛盾修正判断不同。

#基准测试#研究突破#智能体

阅读原始全文