近年来,人工智能研究取得了令人难以置信的发展和进步。这些进展主要是在三个方面取得的:计算机视觉、自然语言处理和机器人技术。例如,图像识别被广泛认为是计算机视觉的圣杯,而语言建模和翻译则是自然语言处理的基本任务。然而,许多实际的应用程序和任务需要解决的不仅仅是这些特定于领域的问题,而是需要解决同时涉及所有三个领域的问题。一个自主系统不仅需要能够识别图像中的物体,还需要能够解释自然语言描述或命令,并理解它们如何与其感知到的视觉观察相关联。此外,机器人需要利用这些信息来做决策,并决定采取哪些物理行动来完成任务。在本文的第一部分中,我提出了一种学习如何将自然语言和3D形状联系起来的方法,这样系统就可以将文本描述中描述的单词(如“round”)与3D对象中圆形的几何属性联系起来。为了将这两种模式联系起来,我们依赖一个跨模态嵌入空间来进行多模态推理,并在没有细粒度的属性级分类注释的情况下学习这个空间。通过学习如何将这两种模态联系起来,我们可以执行文本到形状的检索和形状操作等任务,也可以执行新的任务,如文本到形状的生成。在本论文的第二部分中,我们允许代理被嵌入并探索一个依赖于所有三个领域(计算机视觉、自然语言和机器人)的任务:通过遵循自然语言指令进行机器人导航。与依赖固定的图像或3D对象数据集不同,代理现在位于一个物理环境中,并使用机载摄像机捕捉自己对空间的视觉观察。为了把视觉、语言和机器人的物理状态联系起来,我们提出了一个使用拓形图进行规划和控制的系统。这种基本的抽象允许主体将语言指令的部分与环境的相关空间区域联系起来,并将一系列的视觉观察与物理运动和动作联系起来

成为VIP会员查看完整内容
63

相关内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
62+阅读 · 2021年12月1日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
61+阅读 · 2021年8月27日
专知会员服务
71+阅读 · 2021年7月29日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
8+阅读 · 2022年3月29日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
3+阅读 · 2022年4月19日
Arxiv
15+阅读 · 2021年12月22日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员