【CMU博士论文】语言理解与生成优化技术，145页pdf

语言使用在个体、社区和人群之间存在差异，产生了具有不同词汇、句法、语义和语用的变体。尽管在几种语言的标准基准测试上自然语言处理系统迅速改进，但这些模型往往无法代表这种多样性。在这篇论文中，我旨在开发方法使NLP系统理解和生成自然语言，同时显式地模拟与多样化语言使用相关的额外语言变量。我将基于神经网络的NLP模型中常规训练和推理问题重新构思为多目标优化的实例，这篇论文分为两部分。在第一部分中，（a）我提出了一种训练鲁棒文本分类模型的方法，减少对数据中虚假相关性的依赖——应用于检测语言变体以及其他存在变化模式作为混淆因素的任务；（b）我提出了一个提示框架，用于将文本分类器针对不同领域、社会和个人变化因素的语用任务进行上下文化。在第二部分，我专注于丰富文本生成中的多样性。我介绍了（c）一种机器翻译训练算法，该算法将令牌表示学习与模型学习分开，从而提高了生成文本的词汇多样性。我们展示了它便于适应生成目标语言的密切相关方言。最后，我介绍了（d）用于控制预训练语言模型中风格变化的解码算法。我将受控解码框架为受约束的优化，并开发基于梯度的方法来非自回归地生成文本，该方法初始化并迭代更新整个输出序列。我们使用不同类型的控制在机器翻译、风格转换和开放式生成上验证了这些方法。总体而言，这篇论文旨在推动NLP研究方向超越标准化语言，向社会使用进军，在相关的训练和推理目标指导下，提出研究问题和方法论。

没有两个特定语言的说话者展示出完全相同的语言模式。日益增长的用户生成的网络数据使这种变异性浮出水面。这种原始文本的丰富性，加上近期在大规模自监着学习方法（Devlin et al., 2019; Radford et al., 2019a; Brown et al., 2020a; Chowdhery et al., 2022）方面的进步，已经在许多NLP任务上取得了显著的性能提升。然而，尽管训练数据的多样性，NLP模型往往是单一的，只编码频繁出现的模式，并对所有其他变体进行平均化处理（Hovy和Prabhumoye，2021）。结果，它们是静态且脆弱的——一致地未能支持传统“标准”之外的语言使用。例如，毒性检测系统将非裔美国英语（AAE）的推文评分为比其他更具攻击性（Davidson et al., 2019; Sap et al., 2019），情感分类系统将女性作者的评论评为更积极（Kiritchenko和Mohammad，2018），文本生成模型对女性和方言说话者的错误率更高（Tatman，2017; Ziems et al., 2023），在与人类进行对话时具有不一致的个性（Cercas Curry et al., 2020），并产生文化不适当和不礼貌的输出（Vanmassenhove et al., 2019; Hovy et al., 2020）。

以前的NLP工作与语言变异性相关，主要集中在开发学习方法上，基本上忽略了变体之间的差异，将它们视为噪声。此类工作的例子包括改进词性标注器（Gimpel et al., 2011）、依存句法分析器（Liu et al., 2018）、情感分析器（Yang和Eisenstein，2017）、命名实体识别器（Augenstein et al., 2017）或翻译系统（Michel和Neubig，2018），其中输入文本来自社交媒体等包含不同变体的来源。然而，在几种情况下，差异是有意的，其他语言用户可以推断出它们的预期意义；忽视这些信号可能会损害模型的实用性。随着NLP系统在面向用户的产品中的日益普及，因此迫切需要关注语言变异性。例如，构建能够适应用户语言偏好的对话代理，而不是为每个人生成标准化语言的回应，能够生成具有多样化风格和流利程度的输出的翻译系统；构建不忽视变化来源而是将其纳入考虑以进行预测的分类模型。

为了实现这一目标，这篇论文专注于重新思考语言理解和生成的标准训练和推理方法的机器学习解决方案。统一的主题是将文本中不同粒度的语言和额外语言多样性整合到ML模型中：从词汇（Kumar和Tsvetkov，2019；Bhat et al.，2019；Kumar et al.，2021a），到句法和风格（Jegadeesan et al.，2021；Kumar et al.，2021b，2022b；Han et al.，2023a），再到语义和语用（Kumar et al.，2023b）。1 我认为，与优化模型参数和输出以达到单一目标（例如最大化任务准确性或生成输入句子的忠实翻译）的传统算法不同，表征NLP中的变异本质上是多目标的。例如，最大化任务准确性和跨说话者变体的公平性；生成忠实翻译并控制特定风格，以及控制语言结构的简单性（或复杂性）。此外，为了促进在广泛实际环境中的使用，这篇论文旨在开发高效解决方案；从计算复杂性，到参数数量，到标记资源的数量。