近年来,人工智能研究取得了惊人的发展和进步。这些进步主要是在三个方面取得的:计算机视觉、自然语言处理和机器人技术。例如,图像识别被广泛认为是计算机视觉的圣杯,而语言建模和翻译一直是自然语言处理的基本任务。然而,许多实际应用程序和任务需要解决的不仅仅是这些特定于领域的问题,而是需要解决涉及所有三个领域的问题。一个自主系统不仅需要能够识别图像中的物体,而且还需要解释自然语言的描述或命令,并理解它们如何与它所感知的视觉观察相关联。此外,机器人需要利用这些信息进行决策,并决定为了完成任务而采取哪些物理行动。在本文的第一部分,我提出了一种学习如何将自然语言与三维形状联系起来的方法,使系统能够将文本描述中描述的“圆”等词与三维物体中的圆的几何属性进行连接。为了将这两种模式联系起来,我们依赖一个跨模态嵌入空间来进行多模态推理,并在没有细粒度、属性级分类注释的情况下学习这个空间。通过学习如何将这两种模态联系起来,我们可以执行诸如文本到形状的检索和形状操作等任务,还可以实现新的任务,如文本到形状的生成。在本论文的第二部分,我们允许主体被具体化,并探索一个依赖于所有三个领域(计算机视觉、自然语言和机器人)的任务:机器人导航通过遵循自然语言指令。不再依赖于固定的图像或3D对象数据集,代理程序现在位于一个物理环境中,并使用机载相机捕捉自己对空间的视觉观察。为了在视觉、语言和机器人物理状态之间建立联系,我们提出了一个使用拓扑图执行规划和控制的系统。这种基本的抽象允许主体将语言指令的部分与环境的相关空间区域联系起来,并将一系列视觉观察与物理动作和行动联系起来。

https://searchworks.stanford.edu/view/13876455

成为VIP会员查看完整内容
71

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
专知会员服务
104+阅读 · 2021年7月17日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
93+阅读 · 2020年6月19日
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
计算机视觉方向简介 | 深度学习视觉三维重建
计算机视觉life
5+阅读 · 2019年10月29日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
MIT CSAIL最新论文:跨模态语音和视觉的对齐
乌镇智库
3+阅读 · 2018年9月19日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
37+阅读 · 2021年2月10日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
专知会员服务
104+阅读 · 2021年7月17日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
93+阅读 · 2020年6月19日
相关资讯
2019->2020必看的十篇「深度学习领域综述」论文
极市平台
23+阅读 · 2020年1月2日
计算机视觉方向简介 | 深度学习视觉三维重建
计算机视觉life
5+阅读 · 2019年10月29日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
MIT CSAIL最新论文:跨模态语音和视觉的对齐
乌镇智库
3+阅读 · 2018年9月19日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
微信扫码咨询专知VIP会员