We propose the inverse problem of Visual question answering (iVQA), and explore its suitability as a benchmark for visuo-linguistic understanding. The iVQA task is to generate a question that corresponds to a given image and answer pair. Since the answers are less informative than the questions, and the questions have less learnable bias, an iVQA model needs to better understand the image to be successful than a VQA model. We pose question generation as a multi-modal dynamic inference process and propose an iVQA model that can gradually adjust its focus of attention guided by both a partially generated question and the answer. For evaluation, apart from existing linguistic metrics, we propose a new ranking metric. This metric compares the ground truth question's rank among a list of distractors, which allows the drawbacks of different algorithms and sources of error to be studied. Experimental results show that our model can generate diverse, grammatically correct and content correlated questions that match the given answer.


翻译:我们提出视觉问题解答(iVQA)的反面问题,并探索其是否适合作为相对语言理解的基准。iVQA的任务是生成一个与特定图像和答案对应的问题。由于答案不如问题那样丰富,而且问题缺乏可学习的偏差,iVQA模型需要更好地了解图像是否成功,而不是VQA模型。我们作为一个多模式动态推论过程提出问题生成,并提议一个iVQA模型,该模型可以逐渐调整其关注焦点,同时根据部分生成的问题和答案进行调整。关于评估,除了现有的语言衡量标准外,我们建议一个新的等级衡量标准。这一衡量标准将地面真相问题的排名比作一个分散器清单,这样就可以对不同的算法和错误来源进行推算。实验结果表明,我们的模型可以产生与给定答案相匹配的多样化、语法正确和内容相关问题。

5
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Generating Rationales in Visual Question Answering
Arxiv
5+阅读 · 2020年4月4日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员