三维视觉定位是一个具有挑战性的任务,通常需要直接而密集的监督,尤其是场景中每个对象的语义标签。在本文中,我们相反地研究了自然监督的情景,该情景仅从三维场景和问答对中学习,而在先前的研究中表现不佳。我们提出了语言规范化的概念学习器(LARC),它利用语言的约束作为正则化项,显著提高了在自然监督情景中神经符号概念学习器的准确性。我们的方法基于两个核心见解:第一个是语言约束(例如,一个词与另一个词的关系)可以作为神经符号模型中结构化表示的有效正则化;第二个是我们可以查询大型语言模型,以从语言属性中提取这种约束。我们展示了LARC在自然监督的三维视觉定位中改善了先前工作的性能,并展示了广泛的三维视觉推理能力,从零样本组合到数据效率和可传递性。我们的方法代表了朝着使用基于语言的先验知识对结构化视觉推理框架进行正则化的有希望的一步,以在没有密集监督的情况下进行学习。
https://www.zhuanzhi.ai/paper/17e1e32fe0b25f626b63e275f0ae3772