Since its appearance, Visual Question Answering (VQA, i.e. answering a question posed over an image), has always been treated as a classification problem over a set of predefined answers. Despite its convenience, this classification approach poorly reflects the semantics of the problem limiting the answering to a choice between independent proposals, without taking into account the similarity between them (e.g. equally penalizing for answering cat or German shepherd instead of dog). We address this issue by proposing (1) two measures of proximity between VQA classes, and (2) a corresponding loss which takes into account the estimated proximity. This significantly improves the generalization of VQA models by reducing their language bias. In particular, we show that our approach is completely model-agnostic since it allows consistent improvements with three different VQA models. Finally, by combining our method with a language bias reduction approach, we report SOTA-level performance on the challenging VQAv2-CP dataset.


翻译:自其出现以来,视觉问题回答(VQA,即回答一个图像上的问题)一直被视为一组预先定义的答案的分类问题。尽管方便,这种分类方法没有充分反映将回答限于独立提案之间选择的问题的语义,没有考虑到它们之间的相似性(例如,同样惩罚回答猫或德国牧羊人而不是狗)。我们通过提出(1) VQA类之间的近距离两个衡量标准,以及(2)考虑到估计接近程度的相应损失,来解决这一问题。这大大改善了VQA模型的普遍化,减少了其语言偏差。特别是,我们表明,我们的方法是完全模型的,因为它允许与三种不同的VQA模式一致地改进。最后,我们通过将我们的方法与语言偏差减少方法结合起来,报告了具有挑战性的VQAv2-CP数据集的SOTA级业绩。

2
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
29+阅读 · 2021年5月6日
专知会员服务
155+阅读 · 2021年3月6日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
247+阅读 · 2020年5月18日
自动结构变分推理,Automatic structured variational inference
专知会员服务
38+阅读 · 2020年2月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Symbolic Priors for RNN-based Semantic Parsing
Arxiv
3+阅读 · 2018年9月20日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员