【剑桥博士论文】利用世界表示中的多模态和结构，144页pdf

人工智能研究的一个基本目标是设计最终将在现实世界中与人类合作的智能体。为此，具身学习正在成为机器学习社区为实现这一目标所做出的最重要的努力之一。最近发展的子领域涉及此类系统的各个方面——视觉推理、语言表示、因果机制、分布外输入的鲁棒性，仅举几个例子。特别是，多模态学习和语言基础对于实现对现实世界的深刻理解至关重要。人类通过与环境的交互，学习视觉、听觉和语言概念之间的复杂关联，来构建内部表示。由于世界充满了结构，基于图的编码也可能被纳入推理和决策模块。此外，这些关系表示在本质上是相当象征性的——提供了比其他格式(如原始像素)更好的优势——可以编码各种类型的链接(时间的、因果的、空间的)，这对于理解和在现实世界中采取行动是必不可少的。

**本文提出了三项研究工作，研究和开发了未来智能代理的可能方面。**第一个贡献集中在视觉和语言学习上，引入了一个具有挑战性的具身任务，将现有任务的重点转移到视觉推理问题上。通过扩展流行的视觉问答(VQA)范式，我还设计了几个模型，在新的数据集上进行了评估。通过更具挑战性的VQA下游任务，这为环境理解提供了初步的性能估计。第二项工作提出了两种获取图结构数据分层表示的方法。这些方法要么扩展到比当时性能最好的方法处理的更大的图，要么通过使用拓扑数据分析算法合并理论属性。这两种方法都与当代最先进的图分类方法竞争，即使在第二种情况中，归纳偏差是pagerank驱动的，甚至在社会领域之外。第三个贡献进一步探讨了关系学习，提出了在复杂环境下对图表示的概率处理，如少样本、多任务学习和稀缺标记数据体制。通过在神经过程中添加关系归纳偏差，由此产生的框架可以对生成有结构的数据集的整个函数分布进行建模。这产生了显著的性能提升，特别是在上述复杂场景中，语义准确的不确定性估计大大提高了神经过程基线。这种类型的框架最终可能有助于开发终身学习系统，因为它能够适应新的任务和分布。我在博士学习期间设计的基准、方法和框架为具身和图表示学习研究提供了重要的未来方向。这些领域已经越来越多地证明了它们与设计智能和协作代理的相关性，在不久的将来，我们可能会与这些代理进行交互。通过解决这个问题空间中的几个挑战，我的贡献为构建在现实环境中部署的机器学习系统提供了一些步骤。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【剑桥大学博士论文】具有关系结构的元学习表示，221页pdf

专知会员服务

41+阅读 · 2023年2月21日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日