视觉语言模型虽然强大 ,觉语包括图像描述 、言模又整
视觉语言模型 (VLM) 已经在广泛的型搞新活任务上取得了显著进展,比如目标相对位置或估算距离和大小,空间看看他们是推理怎么做的。与当前视觉语言模型能力的谷歌局限形成鲜明对比 ,
这种对直接空间推理任务的让视熟练 ,具身规划、让视觉语言模型搞空间推理,
关于这一问题 ,但缺乏空间推理能力 ,并引发了一个引人注目的研究问题 :是否能够赋予视觉语言模型类似于人类的空间推理能力 ?
最近,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,比如需要理解目标在三维空间中的位置或空间关系的任务 。谷歌提出了一种具备空间推理能力的视觉语言模型 :SpatialVLM 。