【斯坦福博士论文】视觉语言的多模态表示，102页pdf

近年来，人工智能研究取得了惊人的发展和进步。这些进步主要是在三个方面取得的:计算机视觉、自然语言处理和机器人技术。例如，图像识别被广泛认为是计算机视觉的圣杯，而语言建模和翻译一直是自然语言处理的基本任务。然而，许多实际应用程序和任务需要解决的不仅仅是这些特定于领域的问题，而是需要解决涉及所有三个领域的问题。一个自主系统不仅需要能够识别图像中的物体，而且还需要解释自然语言的描述或命令，并理解它们如何与它所感知的视觉观察相关联。此外，机器人需要利用这些信息进行决策，并决定为了完成任务而采取哪些物理行动。在本文的第一部分，我提出了一种学习如何将自然语言与三维形状联系起来的方法，使系统能够将文本描述中描述的“圆”等词与三维物体中的圆的几何属性进行连接。为了将这两种模式联系起来，我们依赖一个跨模态嵌入空间来进行多模态推理，并在没有细粒度、属性级分类注释的情况下学习这个空间。通过学习如何将这两种模态联系起来，我们可以执行诸如文本到形状的检索和形状操作等任务，还可以实现新的任务，如文本到形状的生成。在本论文的第二部分，我们允许主体被具体化，并探索一个依赖于所有三个领域(计算机视觉、自然语言和机器人)的任务:机器人导航通过遵循自然语言指令。不再依赖于固定的图像或3D对象数据集，代理程序现在位于一个物理环境中，并使用机载相机捕捉自己对空间的视觉观察。为了在视觉、语言和机器人物理状态之间建立联系，我们提出了一个使用拓扑图执行规划和控制的系统。这种基本的抽象允许主体将语言指令的部分与环境的相关空间区域联系起来，并将一系列视觉观察与物理动作和行动联系起来。

https://searchworks.stanford.edu/view/13876455

成为VIP会员查看完整内容

相关内容

斯坦福大学 (Stanford University)

关注 75

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【斯坦福博士论文】深度学习医学图像解译，207页pdf

专知会员服务

107+阅读 · 2021年7月17日

【CMU博士论文】构建智能自主导航代理，附论文slides与视频

专知会员服务

55+阅读 · 2021年7月1日

【伯克利博士论文】面向深度图像合成的机器学习，155页pdf

专知会员服务

35+阅读 · 2021年5月26日

【CMU博士论文】可控文本生成，附107页pdf与Slides

专知会员服务

57+阅读 · 2021年4月21日