Natural language processing is a fast-growing field of artificial intelligence. Since the Transformer was introduced by Google in 2017, a large number of language models such as BERT, GPT, and ELMo have been inspired by this architecture. These models were trained on huge datasets and achieved state-of-the-art results on natural language understanding. However, fine-tuning a pre-trained language model on much smaller datasets for downstream tasks requires a carefully-designed pipeline to mitigate problems of the datasets such as lack of training data and imbalanced data. In this paper, we propose a pipeline to adapt the general-purpose RoBERTa language model to a specific text classification task: Vietnamese Hate Speech Detection. We first tune the PhoBERT on our dataset by re-training the model on the Masked Language Model task; then, we employ its encoder for text classification. In order to preserve pre-trained weights while learning new feature representations, we further utilize different training techniques: layer freezing, block-wise learning rate, and label smoothing. Our experiments proved that our proposed pipeline boosts the performance significantly, achieving a new state-of-the-art on Vietnamese Hate Speech Detection campaign with 0.7221 F1 score.


翻译:自然语言处理是人工智能的一个快速增长的领域。 自谷歌于2017年引入变换器以来,许多语言模型,如BERT、GPT和ELMO,都受到这一架构的启发。这些模型在庞大的数据集方面接受了培训,在自然语言理解方面获得了最先进的成果。然而,在为下游任务对小得多的数据集进行微调,对预先培训的语言模型进行微调,这需要精心设计一个管道,以缓解数据集的问题,如培训数据缺乏和数据不平衡。在本文中,我们建议建立一个管道,将通用的RoBERTA语言模型调整到具体的文本分类任务:越南仇恨言论探测。我们首先通过对遮盖语言模型进行再培训,将PhoBERT的数据集调整到我们的数据集上;然后,我们用它的编码器进行文字分类。为了在学习新特征表的同时保留预先培训的重量,我们进一步使用不同的培训技术:层冻结、阻断学习率率和标签。我们的实验证明我们拟议的输送管道模型大大提升了绩效,实现了对越南1年1年新一轮的“国位”的“探查”。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
320+阅读 · 2020年11月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员