Recent Visual Question Answering (VQA) models have shown impressive performance on the VQA benchmark but remain sensitive to small linguistic variations in input questions. Existing approaches address this by augmenting the dataset with question paraphrases from visual question generation models or adversarial perturbations. These approaches use the combined data to learn an answer classifier by minimizing the standard cross-entropy loss. To more effectively leverage augmented data, we build on the recent success in contrastive learning. We propose a novel training paradigm (ConClaT) that optimizes both cross-entropy and contrastive losses. The contrastive loss encourages representations to be robust to linguistic variations in questions while the cross-entropy loss preserves the discriminative power of representations for answer prediction. We find that optimizing both losses -- either alternately or jointly -- is key to effective training. On the VQA-Rephrasings benchmark, which measures the VQA model's answer consistency across human paraphrases of a question, ConClaT improves Consensus Score by 1 .63% over an improved baseline. In addition, on the standard VQA 2.0 benchmark, we improve the VQA accuracy by 0.78% overall. We also show that ConClaT is agnostic to the type of data-augmentation strategy used.


翻译:最近视觉问题解答(VQA)模型显示,VQA基准的成绩令人印象深刻,但对投入问题的语言差异很小,仍然敏感。现有的方法通过从视觉问题生成模型或对抗性扰动模型中用问题参数补充数据集,从视觉问题生成模型或对抗性扰动模型中增加数据,从而解决这一问题。这些方法利用合并数据学习解答分类器,最大限度地减少标准的跨物种损失。为了更有效地利用扩大的数据,我们以最近的对比性学习成功为基础。我们提出了一个新的培训模式(ConClaT),优化交叉作物和对比性损失。对比性损失鼓励对问题的语言差异进行强有力的表述,而交叉作物损失则保留了回答预测的表达的歧视性力量。我们发现,优化这两种损失 -- -- 交替或联合 -- -- 是有效培训的关键。关于VQA-Rephrasings基准,该基准衡量VQA模型在某个问题的语句中的一致性,ConClaT在改进基线后将共识评分提高1.63 %。此外,在标准VQA-A的总体基准中,我们用了VA的精确度,我们用了一个VA-QQ的精确度来显示了C总基准。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
62+阅读 · 2021年3月6日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
11+阅读 · 2020年5月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Arxiv
7+阅读 · 2020年8月7日
Arxiv
6+阅读 · 2018年2月8日
VIP会员
Top
微信扫码咨询专知VIP会员