Deep learning algorithms have shown promising results in visual question answering (VQA) tasks, but a more careful look reveals that they often do not understand the rich signal they are being fed with. To understand and better measure the generalization capabilities of VQA systems, we look at their robustness to counterfactually augmented data. Our proposed augmentations are designed to make a focused intervention on a specific property of the question such that the answer changes. Using these augmentations, we propose a new robustness measure, Robustness to Augmented Data (RAD), which measures the consistency of model predictions between original and augmented examples. Through extensive experimentation, we show that RAD, unlike classical accuracy measures, can quantify when state-of-the-art systems are not robust to counterfactuals. We find substantial failure cases which reveal that current VQA systems are still brittle. Finally, we connect between robustness and generalization, demonstrating the predictive power of RAD for performance on unseen augmentations.


翻译:深度学习算法在视觉问题解答( VQA) 任务中显示了有希望的结果, 但更仔细的观察显示, 它们往往不理解它们所喂养的丰富信号。 为了理解和更好地衡量 VQA 系统的普及能力, 我们审视它们是否坚固, 以反效果增强的数据。 我们提议的增强功能旨在对问题的某个特性进行重点干预, 从而改变答案。 使用这些增强功能, 我们提出了一种新的稳健度衡量标准, 强力到增强的数据( RAD), 以衡量模型预测在原始和扩充的示例之间的一致性。 我们通过广泛的实验, 显示RAD, 不同于经典的精确度度衡量标准, 可以在最先进的系统不健全时量化反效果。 我们发现大量失败案例, 表明当前的 VQA 系统仍然模糊。 最后, 我们将强性和概括性连接起来, 显示雷达在看不见的增强力上的表现的预测力 。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
元强化学习综述及前沿进展
专知会员服务
60+阅读 · 2021年1月31日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
216+阅读 · 2020年5月6日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
3+阅读 · 2020年4月6日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
已删除
架构文摘
3+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年8月2日
IQ-VQA: Intelligent Visual Question Answering
Arxiv
5+阅读 · 2020年7月8日
VIP会员
相关VIP内容
元强化学习综述及前沿进展
专知会员服务
60+阅读 · 2021年1月31日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
216+阅读 · 2020年5月6日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
3+阅读 · 2020年4月6日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
相关资讯
已删除
架构文摘
3+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员