推出 TimeDial 和 Disfl-QA 数据集处理语音通话文本的流畅度问题

2021 年 8 月 30 日 TensorFlow

发布人：软件工程师 Aditya Gupta 和 Google Assistant 研究员 Shyam Upadhyay

自然语言处理 (NLP) 面临的关键挑战就是建立对话系统（Conversational agents 或者 Dialogue system）。对话系统可以理解和推理现实语音所特有的不同语言现象。例如，由于人们并不总是能够预先想好自己要说的具体内容，自然对话中经常会出现如语音中断等不流畅的问题。虽然出现的只是简单的不流畅问题（例如插话、重复、重新开始或纠正），但它会破坏句子的连续性，甚至可能是产生，如语义不流畅（短语的基本含义发生变化）等更复杂的问题。此外，理解对话通常还需要有时间概念。例如一个事件是在另一个事件之前还是之后。然而，如今在 NLP 模型上建立的对话系统，在处理时间关系或不流畅问题方面往往很吃力，而且在改善性能方面进展缓慢。其中部分原因是由于缺乏涉及此类有趣对话和语音现象的数据集。

对话代理
https://en.wikipedia.org/wiki/Dialogue_system

为激发研究社区对这一领域的兴趣，我们很高兴为大家介绍 TimeDial（用于对话中的时间常识推理）和 Disfl-QA（专注于上下文不流畅的问题）。TimeDial 提出了一个用于了解时间的全新单选完形填空任务，它含有一个超过 1100 个对话的注释测试集。Disfl-QA 则是第一个在信息搜索环境中包含上下文不流畅的数据集，即对维基百科段落的问题回答，有大约 1.2 万个人工注释的不流畅问题。这些基准数据集是此类数据集的先驱，显示了人工表现和目前最先进的 NLP 模型之间的巨大差距。

TimeDial
https://arxiv.org/abs/2106.04571
Disfl-QA
https://arxiv.org/abs/2106.04016

TimeDial

虽然人们可以毫不费力地推理如，话题持续时间、频率或对话中事件先后顺序等日常的时间概念，但这类任务对于对话系统而言则具有较大的挑战。例如，目前的 NLP 模型在执行填空任务时，经常会做出糟糕的决定（如下图所示），因为我们通常会假设其在推理方面仅具备基本的世界知识水平，或者需要理解整个对话回合中时间概念之间显性和隐性的相互依赖关系。

对于人类而言，很容易判断“一点半”和“两点一刻”是比“三点半”和“九点半”更合理的填空选项。然而，这种根据对话的上下文，进行类似的时间推理对于 NLP 模型来说并非易事，因为它需要求借助世界范围内的知识（即了解与会者的会议还没有开始）并理解事件之间的时间关系（“一点半”在“三点”之前，而“三点半”在“三点”之后）。事实上，目前最先进的模型，如 T5 和 BERT，最终都选择了错误的答案——“三点半” (T5) 和“九点半” (BERT)。

T5
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

TimeDial 基准数据集（来自 DailyDialog 多轮对话语料库）可衡量模型在对话上下文中的时间常识推理能力。数据集中包含约 1500 个对话，均以单选题的形式呈现，其中一个时间跨度被遮盖，要求模型从四个选项的列表中找到所有正确的答案来填空。

DailyDialog
https://arxiv.org/abs/1710.03957

从实验中我们可以发现，虽然人们可以轻松回答这些选择题（准确率为 97.8%），但最先进 (SOTA) 的预训练语言模型在此类挑战中依然表现得相当吃力。我们在三种不同的建模范式中进行了实验：(i) 使用 BERT 对所提供的 4 个选项进行分类，(ii) 使用 BERT-MLM 为对话中遮盖的跨度进行遮盖填充，(iii) 使用 T5 生成方法。我们观察到，所有的模型在此类挑战中表现吃力，表现最佳的变体也只有 73% 的正确率。

模型	2-最高准确率
人类	97.8%
BERT - 分类	50.0%
BERT - 遮盖填充	68.5%
T5 - 生成	73.0%

定性错误分析表明，预训练的语言模型往往依赖于浅层、虚假的特征（尤其是文本匹配），而不是真正地对上下文进行推理。如要建立能够执行 TimeDial 所需时间常识推理的 NLP 模型，很可能需要重新思考如何在一般文本表征中表示时间对象。

定性错误分析表明
https://arxiv.org/pdf/2106.04571.pdf

Disfl-QA

不流畅是一种固有的语音现象，这种现象最常出现在语音识别系统的文本输出中。要建立能够理解人类语音的对话系统，关键在于理解此类不流畅的文本。然而，由于缺乏包含这种不流畅的数据集，NLP 和语音社区的研究一直受到阻碍，而现有的数据集（如 Switchboard）在规模和复杂性上都相当有限。因此我们很难在不流畅的情况下对 NLP 模型进行压力测试。

不流畅	示例
插话	“今年的，嗯，复活节是什么时候？”
重复	“今年的复活……复活节是什么时候？”
纠正	“今年的大斋节，我是说复活节是什么时候？”
重新开始	“多少钱，哦不对，今年的复活节是什么时候？”

不同类型的不流畅问题。Reparandum（准备纠正或忽略的词；标记为红色）、Interregnum（可选的话语线索；标记为灰色）和 Repair（已纠正的词；标记为蓝色）

Disfl-QA 是第一个在信息搜索环境中包含上下文不流畅的数据集，即通过 SQuAD 的维基百科段落进行问题回答 (Question Answering)。Disfl-QA 是一个具有针对性的数据集，其中所有的问题（约 1.2 万个）都包含不流畅性，与以往的数据集相比，这构成了一个更大的不流畅测试集。在 Disfl-QA 中，超过 90% 的不流畅问题都是纠正或重新开始，因此纠正这个数据集中不流畅问题的难度更高。此外，与早期的不流畅数据集相比，该数据集包含了更多种类的语义干扰，即带有语义的干扰，而不是简单的语音干扰。

SQuAD
https://arxiv.org/abs/1806.03822

段落：……诺曼人（诺曼语：Nourmands；法语：Normands；拉丁语：Normanni）生活在 10 世纪和 11 世纪，法国的诺曼底地区根据他们命名。他们是丹麦、冰岛和挪威的北欧 (Norse)（“诺曼”取自“Norseman”）突击队员和海盗的后裔，在他们的领袖 Rollo 的带领下……

Q1：	诺曼底位于哪个国家？	法国 ✓
DQ1：	在哪个国家发现了北欧，不对，是诺曼底而不是北欧？	丹麦 X
Q2：	诺曼人何时生活在诺曼底？	10 世纪和 11 世纪 ✓
DQ2：	来自哪个国家，不对，请告诉我诺曼人何时生活在诺曼底？	丹麦、冰岛和挪威 X

段落和问题 (Qi) 来自 SQuAD 数据集，及其不流畅版本 (DQi) 包含语义干扰（如“北欧”和“来自哪个国家”）以及来自 T5 模型的预测

此处，第一个问题 (Q1) 所问的是诺曼底的位置。在不流畅版本 (DQ1) 北欧在问题得到纠正之前就已经提到。这种纠正性不流畅的存在让 QA 模型感到混乱，该模型倾向于依靠问题中浅显的文本线索来进行预测。

Disfl-QA 还包括一些更新的现象，例如指代（表示同一实体的表达），在 reparandum 和 repair 之间。

SQuAD	Disfl-QA
BSkyB 的经营许可证是谁颁发的？	谁撤销了 [BSkyB 的] 经营许可证，不对，划掉，[他们] 拥有的经营许可证是谁颁发的？

实验表明，现有的最先进的基于语言模型的问题回答系统，在零样本设置的 Disfl-QA 和启发式不流畅（在论文中提出）中进行测试时，其性能明显下降。

数据集	F1
SQuAD	89.59
启发式算法	65.27 (-24.32)
Disfl-QA	61.64 (-27.95)

我们证明了，数据增强方法可以恢复部分性能损失，也证明了使用人工注释的训练数据进行微调的有效性。我们认为，研究人员需要大规模的不流畅数据集，以便让 NLP 模型在应对不流畅问题时具有稳健性。

证明
https://arxiv.org/abs/2106.04016

结论

理解人类语音特有的语言现象（如不流畅和时间推理等）是在不久的将来实现更为自然的人机交流的关键因素。通过 TimeDial 和 Disfl-QA，我们致力于提供这些数据集作为 NLP 模型的测试平台，以此来填补较为显著的研究空白领域，并评估这些数据集在不同任务中对普遍存在的现象所展示的稳健程度。我们希望，更广泛的 NLP 社区将设计出通用的少样本或零样本方法来有效地处理这些现象，而不需要专门为这些挑战构建特定任务的人工注释训练数据集。