【EMNLP2018】RecipeQA - 食谱多模态阅读理解数据集

2018 年 9 月 8 日 专知

【导读】阅读理解旨在构建能够回答与给定自然语言文本相关的问题的机器。作为人工智能中最困难和最具吸引力的问题之一,它要求模型同时理解问题和给定上下文。尽管在过去几年中AI取得了很大进展,但人与计算机之间仍然存在显着的性能差距,研究人员正在通过引入更复杂的数据集来推动我们对现有方法的局限性和能力的理解。Aykut Erdem等人提出了RecipeQA数据集,并基于此开展了阅读理解竞赛。该论文已被EMNLP接收。


作者|Aykut Erdem

编译|专知

整理|Yingying, 李大囧


RecipeQA数据集


RecipeQA是一个新型多模态机器理解数据集, 目的是利用含有图片的菜谱,理解多模态环境中的程序性知识。它包含来自22种食品类别的大约20K食谱,以及超过36K的问题。


RecipeQA中的每个菜谱包括多个做菜步骤,每个步骤包括文本和图像描述。 除此之外,数据集还还包括自动生成的大量问题。 下面是一个菜谱的示例:


RecipeQA在许多方面与现有的阅读理解数据集不同。首先,它是从在线网站上获取的真实数据。其次,RecipeQA中含有视觉模态,可以防止问题通过浅层信号层被轻松回答。最后,数据集中的图片是普通人在无约束环境中拍摄的,而不是像其他多模态数据集一样,具有较为严格的约束。例如,在TQA中精心绘制的图表或教科书图像,COMICS数据集中的漫画或MovieQA中经过编辑的视频。


特别是,由于菜谱和多模态数据的特殊性,RecipeQA包含以下三个核心挑战:


  • RecipeQA要求识别和链接不同形式的实体,以拥有有效和视觉上基础的推理技能。目前,多模态仅在有限的范围内进行了探索,其中大多数现有的多模态模型在整合不同模态时大多考虑非常简单的策略。

  • 为了在RecipeQA中取得成功,理解系统需要在寻求答案的同时利用常识知识。 RecipeQA中的问题需要识别实体(例如番茄) - 在图像的部分和配方的某些部分之间建立概念关联,并及时跟踪这些实体的状态(例如烘焙)。


  • RecipeQA提供了几种专门为烹饪食谱设计的不同任务。下面详细描述,这些任务中的每一个都评估特定的理解技能,并且在单个模型中处理所有这些多个任务需要多任务学习设置。


RecipeQA中的理解任务


首先是文本完形填空任务,与其他任务的区别是,它包括图像信息。


让我们看一个示例文本完形填空样式问题:


与文本完形填空任务相比,其他三个理解任务,即视觉完形,视觉连贯和视觉排序,都将配方步骤的描述作为上下文,而问题和答案仅涉及视觉模态。 为了成功完成这些任务,理解系统不仅需要理解候选步骤之间的关系,还需要调整和关联上下文和答案中存在的不同模态,或者理解一系列配方步骤的时间发生并推断时间。


例如,让我们考虑以下'培根寿司'食谱作为输入背景。


视觉完形填空问题测试与文本完形填空任务相似,不同之处在于此任务中缺少的信息位于视觉域中。 这是一个例子:


另一方面,视觉连贯问题测试了在有序图像集中识别非相干图像的能力。 以下是一个视觉连贯样式问题示例:


最后,视觉排序问题测试系统在给定混合的配方代表图像集的情况下找到正确有序序列的能力。 这是一个这样的问题:



实验结果


到目前为止,作者只实现了一些基线。 作为一个简单的基线,他们调整了Hasty Student模型,该模型不考虑所提供的上下文,只是通过查看问题中元素和候选元素之间的相似性或不相似性来回答问题。 对于我们的神经网络基线,我们修改了中的Impatient Reader,这是一种最初为完形填空文本理解问题开发的神经模型。


用这些方法得到的结果证明了任务的难度。RecipeQA将成为具有挑战性的测试平台,也是评估多模态环境中程序性知识的理想基准。 值得注意的是,Hasty Student 的分数比神经模型更好的原因是,问题和候选回答是以相似的方式生成的。


显然,上表中缺少人的表现分数。 我们计划对人类进行实验来评估问题的难度。 此外,我们希望通过更强大的模型扩展基线结果。 目前,我们正致力于基于IR的QA方法,该方法采用视觉语义嵌入进行跨模态检索。 当然,我们鼓励研究人员将他们的想法贡献给RecipeQA。


项目网站:

https://hucvl.github.io/recipeqa


论文地址:

https://arxiv.org/abs/1809.00812


原文链接:

https://medium.com/hucvl-stories/introducing-recipeqa-a-challenge-dataset-for-multimodal-comprehension-of-cooking-recipes-478c46e6a80c


-END-

专 · 知


人工智能领域26个主题知识资料全集获取加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!



请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!


请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

 AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!


请关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知



登录查看更多
16

相关内容

【人大】大规模知识图谱补全技术的研究进展
专知会员服务
87+阅读 · 2020年5月2日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
170+阅读 · 2020年3月10日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
72+阅读 · 2019年11月3日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
4+阅读 · 2018年3月14日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
Top
微信扫码咨询专知VIP会员