In this paper we shed light on the impact of fine-tuning over social media data in the internal representations of neural language models. We focus on bot detection in Twitter, a key task to mitigate and counteract the automatic spreading of disinformation and bias in social media. We investigate the use of pre-trained language models to tackle the detection of tweets generated by a bot or a human account based exclusively on its content. Unlike the general trend in benchmarks like GLUE, where BERT generally outperforms generative transformers like GPT and GPT-2 for most classification tasks on regular text, we observe that fine-tuning generative transformers on a bot detection task produces higher accuracies. We analyze the architectural components of each transformer and study the effect of fine-tuning on their hidden states and output representations. Among our findings, we show that part of the syntactical information and distributional properties captured by BERT during pre-training is lost upon fine-tuning while the generative pre-training approach manage to preserve these properties.


翻译:在本文中,我们阐述了在神经语言模型的内部表述中微调社会媒体数据的影响。我们注重在Twitter上检测机器人,这是减轻和抵制在社交媒体中自动传播虚假信息和偏见的关键任务。我们调查使用预先培训的语言模型,以解决检测由机器人或人类账户产生的完全基于其内容的推文的问题。不同于GLUE等基准的一般趋势,即BERT在常规文本的大多数分类任务中通常优于GPT和GPT-2等基因变异器。我们观察到,微调机器人检测任务上的基因变异器会产生更高的精度。我们分析了每个变异器的建筑构件,并研究了微调其隐藏状态和输出表现的效果。我们发现,在我们的研究结果中,BERT在预培训期间收集的部分合成信息和分布属性在微调后丢失,而基因变异器前方法设法保护这些特性。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
314+阅读 · 2020年11月26日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
已删除
inpluslab
8+阅读 · 2019年10月29日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
9+阅读 · 2021年3月3日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
已删除
inpluslab
8+阅读 · 2019年10月29日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
相关论文
Arxiv
9+阅读 · 2021年3月3日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
7+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员