在这篇论文中,我们将自然语言技术的设计和开发聚焦于人类。我们的动机来自两个方面,大致可以概括为:(i)谁是这些系统的用户,他们想要什么?以及(ii)我们如何利用我们对人类语言处理和习得的知识?我们主张,以人为中心的自然语言处理(NLP)方法对于帮助我们理解模型行为和能力,识别模型在何处及如何可以被改进,确保模型符合用户的需求,是至关重要的。这篇论文的每一章都由以上一个或多个方面推动。想象一下,如果你开始写这篇引言,你会如何开始?你可能会想到你的读者。他们应该能够轻松地理解这一章以及整篇论文的论述。他们是谁?什么样的故事线对他们最有效?我们对人们通常如何阅读文本有什么了解吗?从这个意义上讲,写这篇引言并不比我们在论文中设计和开发自然语言技术更复杂。我们的动机来自两个方面,大致可以概括为:(i)谁是这些系统的用户,他们想要什么?以及(ii)我们如何利用我们对人类语言处理和习得的知识?这两个问题涵盖了以人为中心的自然语言处理(NLP)的不同方面 —— 这是这篇论文的主题。也就是说,在整篇论文中,我们都将自然语言技术的设计和开发聚焦于人类。我们主张,以人为中心的自然语言处理方法对于帮助我们理解模型行为和能力,识别在何处及如何可以改进模型,确保模型符合用户的需求,是至关重要的。这篇论文的每一章都由这些方面中的一个或多个驱动。我们研究了一系列多样化的任务:数字助手和问答(QA),自动文本摘要,词性(POS)标注,机器翻译(MT)和语言建模。随着我们的研究深入,我们找到了许多新的方式来处理这些任务,以便考虑到更广泛的用户。我们还发现,尽管近年来取得了显著的进步(例如,Vaswani等人,2017;Devlin等人,2019;Lewis等人,2020;Brown等人,2020;Ouyang等人,2022),但仍有许多机会更适当地建模这些方法。因此,这篇论文是人类为中心的NLP新研究方向的起点 —— 我们提出了新的任务,数据和(评估)方法论。我们围绕五个研究问题展开调查,每个问题我们将在论文的某一章中回答。在这里,我们给出一个简短的概述。我们首先从数字助手和问答的领域开始,特别关注用户正在撰写和阅读文档的情况。我们称这种类型的协助为以文档为中心的协助。这是一个新的场景,直观上与其他类型的问答(例如,事实型QA,如Rajpurkar等人,2016;Rajpurkar等人,2018)有所不同。我们预计用户的信息需求会有所不同。然而,由于这是一个新的场景,我们并不确切地知道用户对这种类型的协助有何期望。因此,我们将第一个研究问题表述如下:
研究问题1:以文档为中心的协助是什么样的,我们应该如何建模它?为了回答这个研究问题,我们首先进行一项调查,探索人们在以文档为中心的情境中可能提出的问题。一旦我们对人们希望得到的协助类型有了充分的理解,我们就进入一个更大的数据收集阶段。我们收集了一个以文档为中心的协助背景下的人工标注的英语数据集,包括问题和答案。接下来,我们进行建模步骤,目标是将模型与用户在以文档为中心的场景中确定的需求相对应。我们展示了早期的问答模型在以文档为中心的场景中取得了有希望的结果,但我们也发现,与其在更标准的问答任务上的表现相比,还存在着较大的差距。因此,这项工作也帮助我们理解问答模型的能力,并确定这些模型还可以在哪些地方进行改进。我们现在继续在自动文本摘要的领域进行研究。我们的动机来自于观察到自动摘要方法经常优化自动度量如Rouge (Lin, 2004) 和人类评估度量如信息量、流畅度、简洁性和真实性(例如,Lin, 2004; Nenkova和Passonneau, 2004; Paulus等人,2018; Narayan等人,2018b; Goodrich等人,2019; Wang等人,2020; Xie等人,2021)。通常,摘要的用户并没有明确地纳入到自动摘要方法的设计过程中,使得我们很难判断这些摘要是否完全符合用户的需求。这激发了我们的下一个研究问题:
研究问题2:对于自动生成摘要的用户来说,什么是好的、有用的摘要?
为了回答这个研究问题,我们提出了一种调查方法,用来研究预制摘要的用户的需求,即,由其他人编写的摘要 —— 这也是自动生成摘要所属的类别。我们的调查可以在设计和开发自动摘要方法之前用来确定用户的期望。接下来,评估实现的方法是否确实符合用户的需求是很重要的。因此,我们还提出了一个评估方法,用来评估自动生成摘要对用户的实用性。我们的调查可以轻易地适应不同的用户群体,我们选择大学生作为我们的第一个目标群体。我们发现,目前的自动摘要方法并不总是符合参与者对预制摘要的期望。这些方法的大部分旨在生成几句话长的摘要,以原始文本格式(例如,See等人,2017; Narayan等人,2018b; Liu和Lapata,2019; Lewis等人,2020)。然而,纯原始文本的摘要在我们的调查参与者中并不受欢迎。相反,参与者表明需要包含各种图形元素的摘要,例如,箭头或彩色文本。这一发现激发了我们的下一个研究问题:
研究问题3:我们如何满足用户对包含图形元素的摘要的需求?
在回答这个研究问题时,我们也受到我们关于人类文本理解的知识的启发,这是由给定-新策略(Clark和Haviland,1974;Haviland和Clark,1974;Clark和Haviland,1977)概述的。根据这种策略,人们在阅读文本时,会在建立文本的心理模型时将新信息附加到已知的,即给定的信息上。我们提出了一个任务,根据给定-新策略构建包含图形元素的摘要。我们使用来自上一个问题的评估方法来确认有一大批人认为我们提出的摘要是有用的。鼓舞于这些积极的发现,我们收集了一个人工标注的数据集,以支持我们称之为GraphelSums的任务的研究。这个数据集包含了英语新闻文档的图形元素摘要。接下来,我们为带图形元素的摘要任务提出了基线方法,这些方法显示这个任务是可行的,但也有挑战。也就是说,就像我们的第一个研究问题一样,这些实验帮助我们理解我们提出的解决方案还面临的挑战。到目前为止,我们的努力都只集中在英语这种语言上,这限制了我们的以用户为中心的方法。我们现在将注意力转向那些没有像英语那样容易获取的书面资源的语言。对这些低资源语言的研究通常基于高资源场景,可能会使低资源语言的结果产生偏差。受到这一观察的启发,我们提出了下一个研究问题,如下:
研究问题4:NLP中的低资源调查是如何受到高资源方法的偏见的?
一个研究低资源情况的主要方法是从高资源数据集中进行抽样,以模拟一个低资源数据集。对于这个研究问题,我们研究了这种方法的有效性,因为我们假设得到的抽样可能是一个实际低资源数据集的糟糕代理。从经验上看,我们关注两个在低资源领域也很流行的著名NLP任务:词性标注和机器翻译。我们发现,随机抽样确实导致了对这些任务在低资源场景下的系统工作情况的偏见观点。原因有两方面。一方面,高资源数据集通常在质量上比低资源数据集高,例如在词汇量方面。这对下采样的质量和在这些数据集上训练的模型的性能产生了积极影响。另一方面,高资源数据集通常比低资源数据集创建得不太仔细,因此它们可能包含更多的噪声。这对在这些数据集的下采样版本上训练的模型的性能产生了负面影响。对于我们的最后一个研究问题,我们采取了一种较少以用户为中心的方法,因为我们完全受到人类语言习得的启发,特别是在语言建模的背景下。尽管大型语言模型的性能日益增强(例如,Devlin et al., 2019; Brown et al., 2020; Rae et al., 2021),但它们是在大量数据上训练的,而且它们的训练方式从人类语言习得的角度看来显得不自然 - 显然,人类并不是在阅读大量文本时预测下一个甚至是被掩蔽的词汇来学习语言的。相反,人类语言学习更具交互性。这促使我们探索交互性在人工语言建模中可以发挥的作用,因此我们提出了下一个研究问题:
研究问题5:我们如何通过采取更加交互的方法使人工语言建模更像人类?
我们也将这种交互式的语言建模方法称为交互式语言建模。这个研究问题具有探索性的本质。我们首先更详细地定义交互式语言建模的目标,然后提出了实现这个目标的路线图。然后我们在这个路线图上迈出了第一步,展示了这种方法的初步可行性,并为将来在路线图上迈出下一步铺平了道路。这就结束了我们的研究问题的概述。在下一节中,我们将总结本论文的主要贡献。