Visual contents, such as illustrations and images, play a big role in product manual understanding. Existing Product Manual Question Answering (PMQA) datasets tend to ignore visual contents and only retain textual parts. In this work, to emphasize the importance of multimodal contents, we propose a Multimodal Product Manual Question Answering (MPMQA) task. For each question, MPMQA requires the model not only to process multimodal contents but also to provide multimodal answers. To support MPMQA, a large-scale dataset PM209 is constructed with human annotations, which contains 209 product manuals from 27 well-known consumer electronic brands. Human annotations include 6 types of semantic regions for manual contents and 22,021 pairs of question and answer. Especially, each answer consists of a textual sentence and related visual regions from manuals. Taking into account the length of product manuals and the fact that a question is always related to a small number of pages, MPMQA can be naturally split into two subtasks: retrieving most related pages and then generating multimodal answers. We further propose a unified model that can perform these two subtasks all together and achieve comparable performance with multiple task-specific models. The PM209 dataset is available at https://github.com/AIM3-RUC/MPMQA.


翻译:摘要:视觉内容,如插图和图像,在产品手册理解中起着重要作用。现有的产品手册问答(PMQA)数据集往往忽略视觉内容,仅保留文本部分。在本文中,为了强调多模态内容的重要性,我们提出了一个多模态产品手册问答(MPMQA)任务。对于每个问题,MPMQA要求模型不仅处理多模态内容,还要提供多模态答案。为支持MPMQA,我们使用人工注释构建了一个大型数据集PM209,其中包含来自27个知名消费电子品牌的209个产品手册。人工注释包括手册内容的6种语义区域和22,021对问题和答案。特别地,每个答案由一句文本句子和相关的手册视觉区域组成。考虑到产品手册的长度以及问题总是与少量页面相关,MPMQA可以自然地分为两个子任务:检索最相关的页面,然后生成多模态答案。我们进一步提出了一个统一模型,可以同时执行这两个子任务,并实现多个任务特定模型的可比性能。PM209数据集可在https://github.com/AIM3-RUC/MPMQA上获得。

0
下载
关闭预览

相关内容

专知会员服务
54+阅读 · 2021年2月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2021年11月19日
VIP会员
相关VIP内容
专知会员服务
54+阅读 · 2021年2月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员