Infographics are documents designed to effectively communicate information using a combination of textual, graphical and visual elements. In this work, we explore the automatic understanding of infographic images by using Visual Question Answering technique.To this end, we present InfographicVQA, a new dataset that comprises a diverse collection of infographics along with natural language questions and answers annotations. The collected questions require methods to jointly reason over the document layout, textual content, graphical elements, and data visualizations. We curate the dataset with emphasis on questions that require elementary reasoning and basic arithmetic skills. Finally, we evaluate two strong baselines based on state of the art multi-modal VQA models, and establish baseline performance for the new task. The dataset, code and leaderboard will be made available at http://docvqa.org


翻译:图表是利用文本、图形和视觉要素相结合有效交流信息的文件。在这项工作中,我们利用视觉问答技术探索对信息图像的自动理解。为此目的,我们提出InfographVQA,这是一个新的数据集,包括各种信息以及自然语言问答说明,收集的问题要求用各种方法共同解释文件的布局、文字内容、图形元素和数据可视化。我们整理数据集,重点是需要基本推理和基本算术技能的问题。最后,我们根据现代多式VQA模型的状况评估两个强有力的基线,并为新任务确定基线性能。数据集、代码和领导板将在http://docvqa.org上公布。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
元学习与图神经网络逻辑推导,55页ppt
专知会员服务
128+阅读 · 2020年4月25日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
2017 VQA Challenge 第一名技术报告
PaperWeekly
7+阅读 · 2017年9月26日
IQ-VQA: Intelligent Visual Question Answering
Arxiv
5+阅读 · 2020年7月8日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
元学习与图神经网络逻辑推导,55页ppt
专知会员服务
128+阅读 · 2020年4月25日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
2017 VQA Challenge 第一名技术报告
PaperWeekly
7+阅读 · 2017年9月26日
相关论文
IQ-VQA: Intelligent Visual Question Answering
Arxiv
5+阅读 · 2020年7月8日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
9+阅读 · 2016年10月27日
Top
微信扫码咨询专知VIP会员