With large-scale pre-training, the past two years have witnessed significant performance boost on the Visual Question Answering (VQA) task. Though rapid progresses have been made, it remains unclear whether these state-of-the-art (SOTA) VQA models are robust when encountering test examples in the wild. To study this, we introduce Adversarial VQA, a new large-scale VQA benchmark, collected iteratively via an adversarial human-and-model-in-the-loop procedure. Through this new benchmark, we present several interesting findings. (i) Surprisingly, during dataset collection, we find that non-expert annotators can successfully attack SOTA VQA models with relative ease. (ii) We test a variety of SOTA VQA models on our new dataset to highlight their fragility, and find that both large-scale pre-trained models and adversarial training methods can only achieve far lower performance than what they can achieve on the standard VQA v2 dataset. (iii) When considered as data augmentation, our dataset can be used to improve the performance on other robust VQA benchmarks. (iv) We present a detailed analysis of the dataset, providing valuable insights on the challenges it brings to the community. We hope Adversarial VQA can serve as a valuable benchmark that will be used by future work to test the robustness of its developed VQA models. Our dataset is publicly available at https://adversarialvqa. github.io/.


翻译:随着大规模培训前,过去两年目睹了视觉问答(VQA)任务的大幅业绩提升。虽然取得了快速进展,但仍不清楚这些最先进的(SOTA)VQA模型在野外遇到试验实例时是否强劲。研究后,我们引入了Aversarial VQA(一个新的大型VQA)基准,这是通过对抗性人和模范在现场运行的模型程序迭接而收集的一个新的大规模VQA基准。我们通过这一新的基准,提出了若干有趣的发现。 (i) 令人惊讶的是,在数据收集过程中,我们发现非专家的警告员能够相对容易地成功攻击SOTA VQA模型。 (ii) 我们测试我们新数据集上的各种SOTA VQA模型,以突出其脆弱性,发现大规模预先培训模式和对抗性培训方法只能取得远远低于其在标准VQAVA v2数据集上所能达到的成绩。 (iii) 当被视为数据增强时,我们的数据集可以公开地用来改进STA公司今后使用的详细数据基准。 (i)我们用来提供可靠的VA基准。我们用来提供可靠的VA检验我们所制定的数据。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【EMNLP2020最佳论文】无声语音的数字化发声
专知会员服务
11+阅读 · 2020年11月20日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
1+阅读 · 2021年7月22日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Adversarial Metric Attack for Person Re-identification
VIP会员
Top
微信扫码咨询专知VIP会员