【EMNLP2020】低资源域适应的多阶段预训练

2020 年 10 月 14 日 专知


迁移学习技术在难以获得大量高质量注释数据的NLP任务中特别有用。目前的方法在对下游任务进行微调之前,直接对域内文本采用预先训练好的语言模型(LM)。我们展示了使用特定于领域的术语扩展LM的词汇表会带来进一步的收获。在更大的效果上,我们利用未标记数据中的结构创建辅助合成任务,这有助于LM向下游任务转移。在事先训练好的Roberta-large LM系统上逐步应用这些方法,并在IT领域的三个任务上显示出可观的性能提升:阅读理解、文档排序和重复问题检测。

https://arxiv.org/abs/2010.05904



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“LRDA” 可以获取《【EMNLP2020】低资源域适应的多阶段预训练》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
专知会员服务
26+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
59+阅读 · 2020年10月27日
专知会员服务
29+阅读 · 2020年9月18日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
深度学习模型可解释性的研究进展
专知
25+阅读 · 2020年8月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
Arxiv
3+阅读 · 2019年11月28日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
3+阅读 · 2018年8月27日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
VIP会员
相关VIP内容
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
专知会员服务
26+阅读 · 2020年11月5日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
59+阅读 · 2020年10月27日
专知会员服务
29+阅读 · 2020年9月18日
【KDD2020-UCLA-微软】GPT-GNN:图神经网络的预训练
专知会员服务
62+阅读 · 2020年8月19日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
Top
微信扫码咨询专知VIP会员