Identifying adverse and hostile content on the web and more particularly, on social media, has become a problem of paramount interest in recent years. With their ever increasing popularity, fine-tuning of pretrained Transformer-based encoder models with a classifier head are gradually becoming the new baseline for natural language classification tasks. In our work, we explore the gains attributed to Task Adaptive Pretraining (TAPT) prior to fine-tuning of Transformer-based architectures. We specifically study two problems, namely, (a) Coarse binary classification of Hindi Tweets into Hostile or Not, and (b) Fine-grained multi-label classification of Tweets into four categories: hate, fake, offensive, and defamation. Building up on an architecture which takes emojis and segmented hashtags into consideration for classification, we are able to experimentally showcase the performance upgrades due to TAPT. Our system (with team name 'iREL IIIT') ranked first in the 'Hostile Post Detection in Hindi' shared task with an F1 score of 97.16% for coarse-grained detection and a weighted F1 score of 62.96% for fine-grained multi-label classification on the provided blind test corpora.


翻译:我们在工作中探索了在对基于变压器的建筑进行微调之前的适应性预备训练(TAPT)的成果。我们特别研究了两个问题,即:(a) 粗糙的二进制分解成敌对或非敌对,以及(b) 精细的多标签分类Tweets,分为四种类别:仇恨、假、冒犯和诽谤。在建构一个结构时,将emoji和分解标签纳入分类考虑。我们可以实验性地展示TAPT的性能升级。我们的系统(团队名称“iREL IIIT”)在“印地语中Hid Tweets误差检测”中名列第一,F1分为97.16%,用于粗劣的检测,F1分为62.96的盲段标签,用于精密的多级的F1分。我们用F1分制的F1分,用于精密的检测,用于在标签上提供精密的F1-96%的F1分分级的F1分级。

0
下载
关闭预览

相关内容

专知会员服务
123+阅读 · 2020年9月8日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
1+阅读 · 2021年3月8日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
7+阅读 · 2018年9月27日
VIP会员
相关VIP内容
专知会员服务
123+阅读 · 2020年9月8日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
1+阅读 · 2021年3月8日
Arxiv
21+阅读 · 2020年10月11日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
7+阅读 · 2018年9月27日
Top
微信扫码咨询专知VIP会员