Visual language grounding is widely studied in modern neural image captioning systems, which typically adopts an encoder-decoder framework consisting of two principal components: a convolutional neural network (CNN) for image feature extraction and a recurrent neural network (RNN) for language caption generation. To study the robustness of language grounding to adversarial perturbations in machine vision and perception, we propose Show-and-Fool, a novel algorithm for crafting adversarial examples in neural image captioning. The proposed algorithm provides two evaluation approaches, which check whether neural image captioning systems can be mislead to output some randomly chosen captions or keywords. Our extensive experiments show that our algorithm can successfully craft visually-similar adversarial examples with randomly targeted captions or keywords, and the adversarial examples can be made highly transferable to other image captioning systems. Consequently, our approach leads to new robustness implications of neural image captioning and novel insights in visual language grounding.


翻译:视觉定位语言在现代神经图像字幕系统中得到广泛研究,这些系统通常采用由两个主要部分组成的编码器解码框架:一个用于图像特征提取的进化神经网络(CNN)和一个用于语言字幕生成的经常性神经网络(RNN)。为了研究在机器视觉和感知中用于对抗性扰动的语言基础的稳健性,我们提议了Sow-and-Fool,一种用于在神经图像字幕中生成对抗性实例的新型算法。提议的算法提供了两种评估方法,用以检查神经图像字幕系统是否可以被误导以输出一些随机选择的字幕或关键词。我们的广泛实验显示,我们的算法能够成功地制作具有随机目标的字幕或关键词的视觉相似的对立实例,而这些对立实例可以高度地被转移到其他图像字幕系统。因此,我们的方法导致神经图像字幕和视觉语言定位中的新洞察力影响。

4
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
6+阅读 · 2018年4月3日
VIP会员
相关VIP内容
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Top
微信扫码咨询专知VIP会员