Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

https://arxiv.org/pdf/2412.14171

当前情况: 视觉空间智能未被探索

提出概念: visual-spatial intelligence
能力分类:视觉-空间智能的能力可以分为视觉感知、语言智能、时间处理和空间推理。空间推理进一步细分为关系推理和自我中心-环境中心转换

提出VSI-bench:
1.configuration—-计数,相对距离,相对方向,路线规划
2.measurement estimation—-物体大小,房间大小,绝对距离
3.spatiotemporal—-出现顺序
alt text

分析错误: 发现主要问题在空间推理上不行
改进方法: 构建一致的空间布局表示 cognitive maps,这里分别考察了生成map和预先规划好map,都有不小的提升