近期在大规模预训练领域的进展已经催生了具有强大能力的视觉基础模型。这些模型不仅能够将训练任务泛化到任意图像,其中间表示也对其他视觉任务如检测和分割非常有用。鉴于这样的模型可以在2D中分类、勾画和定位对象,我们提出一个问题:它们是否也能表征对象的3D结构?在这项工作中,我们分析了视觉基础模型的三维感知能力。我们认为,三维感知意味着表示能(1)编码场景的三维结构;(2)在不同视图中一致地表征表面。我们使用任务特定的探针和冻结特征上的零样本推理流程进行了一系列实验。我们的实验揭示了当前模型的几个限制。我们的代码和分析可以在 https://github.com/mbanani/probe3d 找到。