Constructing a large-scale labeled dataset in the real world, especially for high-level tasks (eg, Visual Question Answering), can be expensive and time-consuming. In addition, with the ever-growing amounts of data and architecture complexity, Active Learning has become an important aspect of computer vision research. In this work, we address Active Learning in the multi-modal setting of Visual Question Answering (VQA). In light of the multi-modal inputs, image and question, we propose a novel method for effective sample acquisition through the use of ad hoc single-modal branches for each input to leverage its information. Our mutual information based sample acquisition strategy Single-Modal Entropic Measure (SMEM) in addition to our self-distillation technique enables the sample acquisitor to exploit all present modalities and find the most informative samples. Our novel idea is simple to implement, cost-efficient, and readily adaptable to other multi-modal tasks. We confirm our findings on various VQA datasets through state-of-the-art performance by comparing to existing Active Learning baselines.


翻译:此外,随着数据和结构复杂性的不断增加,积极学习已成为计算机视觉研究的一个重要方面。在这项工作中,我们在视觉问答(VQA)的多模式设置中处理积极学习问题。根据多模式投入、图像和问题,我们提出了一个新颖的方法,通过使用每种输入的特设单一模式分支来利用它的信息来有效获取样本。我们基于信息的相互信息采集战略,除了我们的自我蒸馏技术外,还使样本采集器能够利用所有现有模式并找到最丰富的样本。我们的新想法是易于实施、具有成本效益和易于适应其他多模式任务。我们通过比较现有的积极学习基线,确认我们通过最新业绩对各种VQA数据集的调查结果。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
深度强化学习策略梯度教程,53页ppt
专知会员服务
181+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
新任务引介 | Embodied Question Answering
人工智能前沿讲习班
3+阅读 · 2018年8月8日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
3+阅读 · 2018年11月29日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
深度强化学习策略梯度教程,53页ppt
专知会员服务
181+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
新任务引介 | Embodied Question Answering
人工智能前沿讲习班
3+阅读 · 2018年8月8日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
相关论文
Top
微信扫码咨询专知VIP会员