人工智能研究的一个基本目标是设计最终将在现实世界中与人类合作的智能体。为此,具身学习正在成为机器学习社区为实现这一目标所做出的最重要的努力之一。最近发展的子领域涉及此类系统的各个方面——视觉推理、语言表示、因果机制、分布外输入的鲁棒性,仅举几个例子。特别是,多模态学习和语言基础对于实现对现实世界的深刻理解至关重要。人类通过与环境的交互,学习视觉、听觉和语言概念之间的复杂关联,来构建内部表示。由于世界充满了结构,基于图的编码也可能被纳入推理和决策模块。此外,这些关系表示在本质上是相当象征性的——提供了比其他格式(如原始像素)更好的优势——可以编码各种类型的链接(时间的、因果的、空间的),这对于理解和在现实世界中采取行动是必不可少的。
**本文提出了三项研究工作,研究和开发了未来智能代理的可能方面。**第一个贡献集中在视觉和语言学习上,引入了一个具有挑战性的具身任务,将现有任务的重点转移到视觉推理问题上。通过扩展流行的视觉问答(VQA)范式,我还设计了几个模型,在新的数据集上进行了评估。通过更具挑战性的VQA下游任务,这为环境理解提供了初步的性能估计。第二项工作提出了两种获取图结构数据分层表示的方法。这些方法要么扩展到比当时性能最好的方法处理的更大的图,要么通过使用拓扑数据分析算法合并理论属性。这两种方法都与当代最先进的图分类方法竞争,即使在第二种情况中,归纳偏差是pagerank驱动的,甚至在社会领域之外。第三个贡献进一步探讨了关系学习,提出了在复杂环境下对图表示的概率处理,如少样本、多任务学习和稀缺标记数据体制。通过在神经过程中添加关系归纳偏差,由此产生的框架可以对生成有结构的数据集的整个函数分布进行建模。这产生了显著的性能提升,特别是在上述复杂场景中,语义准确的不确定性估计大大提高了神经过程基线。这种类型的框架最终可能有助于开发终身学习系统,因为它能够适应新的任务和分布。我在博士学习期间设计的基准、方法和框架为具身和图表示学习研究提供了重要的未来方向。这些领域已经越来越多地证明了它们与设计智能和协作代理的相关性,在不久的将来,我们可能会与这些代理进行交互。通过解决这个问题空间中的几个挑战,我的贡献为构建在现实环境中部署的机器学习系统提供了一些步骤。