We introduce an evaluation methodology for visual question answering (VQA) to better diagnose cases of shortcut learning. These cases happen when a model exploits spurious statistical regularities to produce correct answers but does not actually deploy the desired behavior. There is a need to identify possible shortcuts in a dataset and assess their use before deploying a model in the real world. The research community in VQA has focused exclusively on question-based shortcuts, where a model might, for example, answer "What is the color of the sky" with "blue" by relying mostly on the question-conditional training prior and give little weight to visual evidence. We go a step further and consider multimodal shortcuts that involve both questions and images. We first identify potential shortcuts in the popular VQA v2 training set by mining trivial predictive rules such as co-occurrences of words and visual elements. We then create VQA-CE, a new evaluation set made of CounterExamples i.e. questions where the mined rules lead to incorrect answers. We use this new evaluation in a large-scale study of existing models. We demonstrate that even state-of-the-art models perform poorly and that existing techniques to reduce biases are largely ineffective in this context. Our findings suggest that past work on question-based biases in VQA has only addressed one facet of a complex issue. The code for our method is available at https://github.com/cdancette/detect-shortcuts


翻译:我们引入了视觉问题解答(VQA)的评估方法,以更好地诊断捷径学习案例。当模型利用虚假的统计规律来得出正确的答案时,这些案例会发生,但实际上并没有部署理想的行为。我们需要在数据集中找出可能的捷径,并在实际世界中部署模型之前评估其使用情况。VQA的研究群体专门侧重于基于问题的捷径,例如,一个模型可以回答“天空的颜色”和“蓝色”的“蓝”问题,主要依靠先于问题-条件性培训,而很少重视视觉证据。我们更进一步地考虑涉及问题和图像的多式联运捷径。我们首先找出了广受欢迎的 VQA v2 培训中的潜在捷径,这些捷径是由采矿小的预知规则,例如语言和视觉元素的共同出现。我们随后创建了“VQA-CE”,这是对反Examples (e) 问题的新评价集,即开采规则导致错误解答的问题。我们在对现有模型的大规模研究中使用了这种新评估。我们用新的评估方法更进一步考虑涉及问题和图像的多疑点。我们用的是, QErvial-A模型在目前的一个问题上只处理了我们目前的方法。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
153+阅读 · 2021年3月6日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
142+阅读 · 2019年10月27日
开源书:PyTorch深度学习起步
专知会员服务
49+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员