在一个特定的数据集上训练一个强大的神经预测器执行一项任务的主流NLP范式取得了在各种应用上的成功(如:情感分类、基于广度预测的问答或机器翻译)。然而,它建立在数据分布是平稳的假设之上,即。在训练和测试时,数据都是从一个固定的分布中取样的。这种训练方式与我们人类在不断变化的信息流中学习和操作的方式不一致。此外,它不适合于真实世界的用例,在这些用例中,数据分布预计会在模型的生命周期中发生变化。

本文的第一个目标是描述这种偏移在自然语言处理环境中可能采取的不同形式,并提出基准和评价指标来衡量它对当前深度学习体系结构的影响。然后,我们继续采取步骤,以减轻分布转移对NLP模型的影响。为此,我们开发了基于分布鲁棒优化框架的参数化重构方法。从经验上讲,我们证明了这些方法产生了更鲁棒的模型,正如在选择的现实问题上所证明的那样。在本文的第三部分和最后一部分,我们探索了有效地适应现有模型的新领域或任务的方法。我们对这个主题的贡献来自于信息几何学的灵感,获得了一个新的梯度更新规则,缓解了适应过程中灾难性的遗忘问题。

我们从评估开始,因为分布转移特别难以描述和测量,特别是在自然语言方面。这部分是由于数据缺乏规范的度量结构。换句话说,如何有效地衡量两个句子之间的语义相似度还不清楚,因此没有直接的方法来衡量两个样本之间的差异,更不用说两种分布了。因此,作为解决分布偏移的第一步,我们提出了一个新的基准(第3章)和评估指标(第4章),分别评估域偏移和对抗扰动的鲁棒性。有了这些工具在手,我们开始构建鲁棒的模型,这些模型经过训练,即使在没有关于转移本质的明确信息的情况下,对分布转移也不那么敏感。这是通过利用训练分布中的数据多样性来实现的,以确保在训练数据(子群体)中存在的各种领域上的统一性能。具体来说,我们制定了一个分布鲁棒优化框架的参数化版本,该框架允许训练模型对子群体转移更为稳健(第5章和第6章)。最后,在静态环境中学习从根本上是次优的:我们不能期望我们的模型在每一个可能的未来环境中都表现良好,我们必须能够使它们适应我们遇到的任何新情况。因此,我们研究了一种机制,通过这种机制,我们能够根据新的证据微调训练模型,而不会忘记之前获得的知识(第7章)。

https://www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

成为VIP会员查看完整内容
37

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU博士论文】通过记忆的元强化学习
专知会员服务
54+阅读 · 2021年10月16日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
59+阅读 · 2021年6月14日
专知会员服务
65+阅读 · 2021年4月11日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
92+阅读 · 2020年9月28日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
86+阅读 · 2020年9月6日
斯坦福 | 156页PDF讲解【神经网络阅读理解】
机器学习算法与Python学习
14+阅读 · 2018年12月16日
综述 | 一文读懂自然语言处理NLP(附学习资料)
PaperWeekly
9+阅读 · 2017年11月14日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
One-Shot Federated Learning
Arxiv
9+阅读 · 2019年3月5日
Arxiv
7+阅读 · 2018年9月27日
Arxiv
8+阅读 · 2018年6月19日
VIP会员
微信扫码咨询专知VIP会员