【EMNLP2018】RecipeQA - 食谱多模态阅读理解数据集

2018 年 9 月 8 日 专知

【导读】阅读理解旨在构建能够回答与给定自然语言文本相关的问题的机器。作为人工智能中最困难和最具吸引力的问题之一，它要求模型同时理解问题和给定上下文。尽管在过去几年中AI取得了很大进展，但人与计算机之间仍然存在显着的性能差距，研究人员正在通过引入更复杂的数据集来推动我们对现有方法的局限性和能力的理解。Aykut Erdem等人提出了RecipeQA数据集，并基于此开展了阅读理解竞赛。该论文已被EMNLP接收。

作者｜Aykut Erdem

编译｜专知

整理｜Yingying, 李大囧

RecipeQA数据集

RecipeQA是一个新型多模态机器理解数据集, 目的是利用含有图片的菜谱，理解多模态环境中的程序性知识。它包含来自22种食品类别的大约20K食谱，以及超过36K的问题。

RecipeQA中的每个菜谱包括多个做菜步骤，每个步骤包括文本和图像描述。除此之外，数据集还还包括自动生成的大量问题。下面是一个菜谱的示例：

RecipeQA在许多方面与现有的阅读理解数据集不同。首先，它是从在线网站上获取的真实数据。其次，RecipeQA中含有视觉模态，可以防止问题通过浅层信号层被轻松回答。最后，数据集中的图片是普通人在无约束环境中拍摄的，而不是像其他多模态数据集一样，具有较为严格的约束。例如，在TQA中精心绘制的图表或教科书图像，COMICS数据集中的漫画或MovieQA中经过编辑的视频。

特别是，由于菜谱和多模态数据的特殊性，RecipeQA包含以下三个核心挑战：

RecipeQA要求识别和链接不同形式的实体，以拥有有效和视觉上基础的推理技能。目前，多模态仅在有限的范围内进行了探索，其中大多数现有的多模态模型在整合不同模态时大多考虑非常简单的策略。
为了在RecipeQA中取得成功，理解系统需要在寻求答案的同时利用常识知识。 RecipeQA中的问题需要识别实体（例如番茄） - 在图像的部分和配方的某些部分之间建立概念关联，并及时跟踪这些实体的状态（例如烘焙）。
RecipeQA提供了几种专门为烹饪食谱设计的不同任务。下面详细描述，这些任务中的每一个都评估特定的理解技能，并且在单个模型中处理所有这些多个任务需要多任务学习设置。

RecipeQA中的理解任务

首先是文本完形填空任务，与其他任务的区别是，它包括图像信息。

让我们看一个示例文本完形填空样式问题：

与文本完形填空任务相比，其他三个理解任务，即视觉完形，视觉连贯和视觉排序，都将配方步骤的描述作为上下文，而问题和答案仅涉及视觉模态。为了成功完成这些任务，理解系统不仅需要理解候选步骤之间的关系，还需要调整和关联上下文和答案中存在的不同模态，或者理解一系列配方步骤的时间发生并推断时间。

例如，让我们考虑以下'培根寿司'食谱作为输入背景。

视觉完形填空问题测试与文本完形填空任务相似，不同之处在于此任务中缺少的信息位于视觉域中。这是一个例子：

另一方面，视觉连贯问题测试了在有序图像集中识别非相干图像的能力。以下是一个视觉连贯样式问题示例：

最后，视觉排序问题测试系统在给定混合的配方代表图像集的情况下找到正确有序序列的能力。这是一个这样的问题：

实验结果

到目前为止，作者只实现了一些基线。作为一个简单的基线，他们调整了Hasty Student模型，该模型不考虑所提供的上下文，只是通过查看问题中元素和候选元素之间的相似性或不相似性来回答问题。对于我们的神经网络基线，我们修改了中的Impatient Reader，这是一种最初为完形填空文本理解问题开发的神经模型。

用这些方法得到的结果证明了任务的难度。RecipeQA将成为具有挑战性的测试平台，也是评估多模态环境中程序性知识的理想基准。值得注意的是，Hasty Student 的分数比神经模型更好的原因是，问题和候选回答是以相似的方式生成的。