CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)

2019 年 3 月 12 日 计算机视觉战队
CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)

首先,祝贺我党在3月成功举行了“两会”,希望我党越来越强大。在接下来将会有好几场关于IEEE会议,也会着重指向接下来人工智能的发展风向标,有兴趣的同学可以持续关注。

今天,“计算机视觉战队”给大家带来的是CVPR2019会议上几乎满分paper,那我们就开始一起学习吧!

简 介

深度学习发展迅速,很多技术已经落实到具体产品,给我们生活带来了很多方便,未来会越来越多的技术实现,实现人类第四次人工智能革命。

今天说的就是一个导航技术——视觉-语言导航(Vision-language navigation,VLN),其任务就是指在真实的三维环境中让具有实体的智能体进行导航并完成自然语言指令。

今天讲的这个技术,主要解决了三个挑战性问题:1)跨模态参照;2)糟糕的反馈;3)泛化问题。

首先,提出了一种新的强化跨模态匹配(RCM)方法,它可以通过强化学习的方式同时促进局部和全局的跨模态参照,具体就是使用了一个匹配指标,它成为了鼓励模型增强外部指令和运动轨迹之间匹配的固有反馈,模型也用了一个推理导航器,它用来在局部视觉场景中执行跨模态参照。

在一个VLN benchmark数据集上进行的评估结果表明,提出的RCM模型大幅超越已有模型,SPL分数提高了10%,成为了新的SOTA。

之后,为了提高学习到的策略的泛化性,进一步提出了一个自监督模仿学习(SIL)方法,通过模仿自己以往的良好决策的方式探索未曾见过的环境。

在此,作者们表明了SIL可以逼近出更好、更高效的策略,这极大程度减小了智能体在见过和未见过的环境中的成功率表现的差别(从 30.7% 降低到 11.7%)。

Model


导航πθ是一个基于策略的代理,把输入X映射在一系列行为指令。在每一个步骤中,导航器从环境接收一个状态st(视觉场景),并需要在本地可视场景中接收文本指令。因此,设计了一个跨模态推理导航,它可以在序列学习轨迹历史、文本指令的重点和局部显著性,从而形成一个跨模态推理路径,以鼓励两种模态在步骤t处的局部动力学。

上图显示了在时间步骤t展开版本的导航器。为导航器配备全景,将m个不同的视角分为图像块,所以全景特征从视觉状态St提取的可以表示为{vt,j}j=1, vt,j表示图像块在视角j的预训练CNN特征。

History Context

一旦导航器运行一步,视觉场景就会相应地发生变化。轨迹τ1:t的历史到步骤t由一个基于注意力机制的轨迹编码器LSTM编码为历史文本:

请注意,后面采用的是都是点积注意力,将其表示为如下,(以上面的视觉特性为例):

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones,  A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all  you need. In Advances in Neural Information Processing  Systems, pages 5998–6008, 2017.

Visually Conditioned Textual Context

记忆过去可以使人们认识到当前的状态,从而理解下一步应该关注的单词或子指令。因此,进一步学习了以历史上下文为条件的文本。让语言编码器LSTM将语言指令x编码成一组文本特征{wi}ni=1。然后,在每个时间步骤,文本被计算为:

Textually Conditioned Visual Context

要知道在哪里需要动态理解语言指令,因此基于文本上下文计算视觉上下文,如下:

Action Prediction

最后行为预测器考虑历史上下文ht、文本上下文ct和视觉上下文cvisual,并在此基础上决定下一步的方向。它使用双线性点积计算每个可导航方向的概率Pk,如下所示:

Cross-Modal Matching Critic


除了来自环境的外部奖励信号之外,还导出了匹配评论vβ提供的内在奖励,以鼓励语言指令x与导航器πθ的轨迹之间的全局匹配:

因此,采用一种基于注意的序列到序列语言模型作为匹配评论vβ,用轨迹编码器对轨迹τ进行编码,并给出用语言译码器生成指令x中每个字的概率分布。因此内在的回馈:

Learning


Self-Supervised Imitation Learning

最后一部分介绍了通用视觉语言导航任务的RCM方法,该方法的标准设置是在可视化环境中训练Agent,在未见环境中进行测试。在本节中,我们将讨论一个不同的设置,其中允许代理在没有地面真相演示的情况下探索不可见的环境。这是有实际好处的,因为它有利于终身学习和适应新环境。

为此,提出了一种自我监督的模仿学习(SIL)方法来模仿Agent自身过去的好决策。如上,给定一个自然语言指令x,没有成对的演示和GT目标位置,导航器生成一组可能的轨迹,存储最佳轨迹,其通过评论vβ匹配到一个replay buffer中确定的,公式如下:

匹配的评论之前介绍的循环重建奖励来评估轨迹。然后,在replay buffer中利用好的轨迹,Agent确实在自我监督下优化了以下目标。目标位置未知,因此不受环境的监督。

实验及结果


在R2R测试集上的结果

已见和未见验证集的研究结果

可见和未见验证集上的可视化

上图:左:出了门,向左转向楼梯,一路走上楼梯,在楼梯顶上停下来;右:右转下楼梯,左转,一直走到洗衣房,在那儿等着。

特别是,上面的两个例子,两者都具有很高的内在回报。在(A)中,Agent成功地到达了目标目的地,对自然语言教学有了全面的理解;而在(B)中,内在回报也很高,这表明了主体的大部分行为都是好的,但也值得注意的是,在结束时,Agent没有认出洗衣房,这说明了在导航任务中,更加精确的视觉基础训练的重要性。

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

登录查看更多
11

相关内容

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
43

场景流估计在三维环境感知中越来越受到重视。单目场景流估计是一个高度不适定的问题,目前缺乏实用的解决方案。单目场景流估计是从两个时间上连续的图像中获取三维结构和三维运动。我们提出了一种新的单目场景流算法,该算法具有较强的精度和实时性。采用逆问题观点,我们设计了一个单独的卷积神经网络(CNN),它可以成功地从一个经典的光流成本体积同时估计深度和三维运动。我们采用带有三维损失函数和遮挡推理的自监督学习来利用未标记的数据。我们验证了我们的设计选择,包括代理丢失和增加设置。我们的模型在单目场景流的无监督/自监督学习方法中达到了最先进的精度,并在光流和单目深度估计子任务中获得了具有竞争力的结果。半监督微调进一步提高了精度,并在实时产生有希望的结果。

成为VIP会员查看完整内容
0
15
小贴士
相关资讯
相关论文
Xuelong Li,Hongli Li,Yongsheng Dong
5+阅读 · 2019年7月29日
Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddings
Matt Le,Stephen Roller,Laetitia Papaxanthos,Douwe Kiela,Maximilian Nickel
7+阅读 · 2019年2月3日
Chenguang Zhu,Michael Zeng,Xuedong Huang
7+阅读 · 2019年1月2日
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
Xin Wang,Qiuyuan Huang,Asli Celikyilmaz,Jianfeng Gao,Dinghan Shen,Yuan-Fang Wang,William Yang Wang,Lei Zhang
7+阅读 · 2018年11月25日
Doubly Attentive Transformer Machine Translation
Hasan Sait Arslan,Mark Fishel,Gholamreza Anbarjafari
4+阅读 · 2018年7月30日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
5+阅读 · 2018年6月28日
Moshiur R Farazi,Salman Khan
4+阅读 · 2018年5月11日
Xiaolong Wang,Yufei Ye,Abhinav Gupta
5+阅读 · 2018年3月21日
Po-Sen Huang,Chong Wang,Sitao Huang,Dengyong Zhou,Li Deng
4+阅读 · 2018年1月29日
Xiangyu Zhao,Liang Zhang,Zhuoye Ding,Dawei Yin,Yihong Zhao,Jiliang Tang
12+阅读 · 2018年1月5日
Top