在一个特定的数据集上训练一个强大的神经预测器执行一项任务的主流NLP范式取得了在各种应用上的成功(如:情感分类、基于广度预测的问答或机器翻译)。然而,它建立在数据分布是平稳的假设之上,即。在训练和测试时,数据都是从一个固定的分布中取样的。这种训练方式与我们人类在不断变化的信息流中学习和操作的方式不一致。此外,它不适合于真实世界的用例,在这些用例中,数据分布预计会在模型的生命周期中发生变化。
本文的第一个目标是描述这种偏移在自然语言处理环境中可能采取的不同形式,并提出基准和评价指标来衡量它对当前深度学习体系结构的影响。然后,我们继续采取步骤,以减轻分布转移对NLP模型的影响。为此,我们开发了基于分布鲁棒优化框架的参数化重构方法。从经验上讲,我们证明了这些方法产生了更鲁棒的模型,正如在选择的现实问题上所证明的那样。在本文的第三部分和最后一部分,我们探索了有效地适应现有模型的新领域或任务的方法。我们对这个主题的贡献来自于信息几何学的灵感,获得了一个新的梯度更新规则,缓解了适应过程中灾难性的遗忘问题。
我们从评估开始,因为分布转移特别难以描述和测量,特别是在自然语言方面。这部分是由于数据缺乏规范的度量结构。换句话说,如何有效地衡量两个句子之间的语义相似度还不清楚,因此没有直接的方法来衡量两个样本之间的差异,更不用说两种分布了。因此,作为解决分布偏移的第一步,我们提出了一个新的基准(第3章)和评估指标(第4章),分别评估域偏移和对抗扰动的鲁棒性。有了这些工具在手,我们开始构建鲁棒的模型,这些模型经过训练,即使在没有关于转移本质的明确信息的情况下,对分布转移也不那么敏感。这是通过利用训练分布中的数据多样性来实现的,以确保在训练数据(子群体)中存在的各种领域上的统一性能。具体来说,我们制定了一个分布鲁棒优化框架的参数化版本,该框架允许训练模型对子群体转移更为稳健(第5章和第6章)。最后,在静态环境中学习从根本上是次优的:我们不能期望我们的模型在每一个可能的未来环境中都表现良好,我们必须能够使它们适应我们遇到的任何新情况。因此,我们研究了一种机制,通过这种机制,我们能够根据新的证据微调训练模型,而不会忘记之前获得的知识(第7章)。
https://www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc