A number of studies point out that current Visual Question Answering (VQA) models are severely affected by the language prior problem, which refers to blindly making predictions based on the language shortcut. Some efforts have been devoted to overcoming this issue with delicate models. However, there is no research to address it from the angle of the answer feature space learning, despite of the fact that existing VQA methods all cast VQA as a classification task. Inspired by this, in this work, we attempt to tackle the language prior problem from the viewpoint of the feature space learning. To this end, an adapted margin cosine loss is designed to discriminate the frequent and the sparse answer feature space under each question type properly. As a result, the limited patterns within the language modality are largely reduced, thereby less language priors would be introduced by our method. We apply this loss function to several baseline models and evaluate its effectiveness on two VQA-CP benchmarks. Experimental results demonstrate that our adapted margin cosine loss can greatly enhance the baseline models with an absolute performance gain of 15\% on average, strongly verifying the potential of tackling the language prior problem in VQA from the angle of the answer feature space learning.


翻译:一些研究指出,目前的视觉问题解答模式受到先前语言问题(即盲目地根据语言快捷键作出预测)的严重影响,一些努力致力于用微妙的模式克服这一问题,然而,尽管现有的视觉问题解答模式方法都使VQA成为分类任务,但没有从答案空间学习的视角研究解决这一问题,因此,在这项工作的启发下,我们试图从特征空间学习的角度处理先前语言问题。为此,调整的余弦调损失旨在适当区分每个问题类型下的频繁和稀少的回答特征空间。因此,语言模式中有限的模式大为减少,因此,我们的方法将减少先前的语言。我们将这一损失功能应用于几个基线模型,并评估其在两个VQA-CP基准上的有效性。实验结果表明,我们调整的差量损失能够大大加强基线模型,平均取得绝对性能收益15 ⁇,从回答空间特征的角度有力地核查解决VQA先前语言问题的可能性。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
【SIGIR 2020】 基于协同注意力机制的知识增强推荐模型
专知会员服务
89+阅读 · 2020年7月23日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
RikoNet: A Novel Anime Recommendation Engine
Arxiv
0+阅读 · 2021年6月24日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员