We observe a recent behaviour on social media, in which users intentionally remove consonantal dots from Arabic letters, in order to bypass content-classification algorithms. Content classification is typically done by fine-tuning pre-trained language models, which have been recently employed by many natural-language-processing applications. In this work we study the effect of applying pre-trained Arabic language models on "undotted" Arabic texts. We suggest several ways of supporting undotted texts with pre-trained models, without additional training, and measure their performance on two Arabic natural-language-processing downstream tasks. The results are encouraging; in one of the tasks our method shows nearly perfect performance.


翻译:我们观察到最近社交媒体上的一种行为,即用户故意从阿拉伯文字母中去除同义点,以绕过内容分类算法;内容分类通常通过微调预先培训的语言模式进行,这些模式最近被许多自然语言处理应用程序使用;我们在此工作中研究将预先培训的阿拉伯语模式应用于“未达标”阿拉伯文文本的效果;我们建议采取几种方法,在没有额外培训的情况下,用经过预先培训的模型支持已破译的文本,并衡量其在两个经过阿拉伯自然语言处理的下游任务上的表现;结果令人鼓舞;在其中一项任务中,我们的方法表现得几乎完美。

0
下载
关闭预览

相关内容

【干货书】计算机科学家的数学,153页pdf
专知会员服务
170+阅读 · 2021年7月27日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
9+阅读 · 2018年11月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2022年1月19日
Arxiv
28+阅读 · 2021年9月26日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
338页新书《Deep Learning in Natural Language Processing》
机器学习算法与Python学习
9+阅读 · 2018年11月6日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员