Recent studies on machine reading comprehension have focused on text-level understanding but have not yet reached the level of human understanding of the visual layout and content of real-world documents. In this study, we introduce a new visual machine reading comprehension dataset, named VisualMRC, wherein given a question and a document image, a machine reads and comprehends texts in the image to answer the question in natural language. Compared with existing visual question answering (VQA) datasets that contain texts in images, VisualMRC focuses more on developing natural language understanding and generation abilities. It contains 30,000+ pairs of a question and an abstractive answer for 10,000+ document images sourced from multiple domains of webpages. We also introduce a new model that extends existing sequence-to-sequence models, pre-trained with large-scale text corpora, to take into account the visual layout and content of documents. Experiments with VisualMRC show that this model outperformed the base sequence-to-sequence models and a state-of-the-art VQA model. However, its performance is still below that of humans on most automatic evaluation metrics. The dataset will facilitate research aimed at connecting vision and language understanding.


翻译:有关机器阅读理解的最新研究侧重于对文本的理解,但尚未达到人类对真实世界文件的视觉版面和内容的理解水平。在本研究中,我们引入了一个新的视觉机器阅读理解数据集,名为视觉MRC,其中给出了一个问题和文件图像,一台机器读并理解图像中的文字以自然语言回答问题。与含有图像文本的现有视觉回答数据集相比,视觉MRC更侧重于培养自然语言理解和生成能力。它包含30,000对问题和对来自网页多个领域的10,000多份文件图像的抽象答案。我们还引入了一种新模型,扩展现有的序列到序列模型,事先经过大规模文本组合培训,以考虑到文件的视觉版面和内容。与视觉MRC实验显示,该模型超越了基本序列模型和顺序模型以及一款式VQA模型。然而,该模型的性能仍然低于人类在大多数自动评估指标视图方面的性能。数据设置将促进数据设置研究,目的是将大多数自动评估语言连接起来。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
已删除
将门创投
5+阅读 · 2018年7月25日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年11月29日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
已删除
将门创投
5+阅读 · 2018年7月25日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员