Language model pre-training has proven to be useful in many language understanding tasks. In this paper, we investigate whether it is still helpful to add the specific task's loss in pre-training step. In industry NLP applications, we have large amount of data produced by users. We use the fine-tuned model to give the user-generated unlabeled data a pseudo-label. Then we use the pseudo-label for the task-specific loss and masked language model loss to pre-train. The experiment shows that using the fine-tuned model's predictions for pseudo-labeled pre-training offers further gains in the downstream task. The improvement of our method is stable and remarkable.


翻译:语言模式培训前培训已经证明在许多语言理解任务中非常有用。 在本文中,我们调查在培训前步骤中添加具体任务的损失是否仍然有用。 在行业NLP应用程序中,我们拥有大量用户生成的数据。我们使用微调模型给用户生成的未贴标签数据贴上假标签。然后我们使用伪标签作为任务特定损失的标签,将隐蔽语言模式损失作为培训前的标签。实验显示,使用微调模型对假标签培训前阶段的预测在下游任务中取得了进一步收益。我们的方法改进是稳定和显著的。

1
下载
关闭预览

相关内容

【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
已删除
将门创投
12+阅读 · 2019年7月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年9月4日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关资讯
已删除
将门创投
12+阅读 · 2019年7月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员