In an often-cited 2019 paper on the use of machine learning in political research, Anastasopoulos & Whitford (A&W) propose a text classification method for tweets related to organizational reputation. The aim of their paper was to provide a 'guide to practice' for public administration scholars and practitioners on the use of machine learning. In the current paper we follow up on that work with a replication of A&W's experiments and additional analyses on model stability and the effects of preprocessing, both in relation to the small data size. We show that (1) the small data causes the classification model to be highly sensitive to variations in the random train-test split, and that (2) the applied preprocessing causes the data to be extremely sparse, with the majority of items in the data having at most two non-zero lexical features. With additional experiments in which we vary the steps of the preprocessing pipeline, we show that the small data size keeps causing problems, irrespective of the preprocessing choices. Based on our findings, we argue that A&W's conclusions regarding the automated classification of organizational reputation tweets -- either substantive or methodological -- can not be maintained and require a larger data set for training and more careful validation.


翻译:Anastasopoulos & Whitford(A&W)在一份关于政治研究中使用机器学习的2019年论文中经常提到,Anastasopoulos & Whitford(A&W)提出了与组织声誉有关的推文分类方法。他们论文的目的是为公共行政学者和从业者提供关于使用机器学习的“实践指南”。在本论文中,我们通过复制A&W的实验和对模型稳定性和预处理影响的额外分析来跟踪这项工作,这与数据规模小有关。我们表明:(1) 数据小,导致分类模式对随机火车测试的变异高度敏感,(2) 应用预处理使数据极为稀少,数据中的大多数项目都具有两个非零的词汇特征。我们通过进一步实验来改变预处理管道的步骤,我们表明,无论预处理前的选择如何,数据规模小,都会造成问题。根据我们的研究结果,我们认为,A&W关于组织名词自动分类的结论 -- -- 要么是实质性的,要么是方法上的 -- -- 不能维持,并且需要更仔细的数据集,以便进行更仔细的验证。

0
下载
关闭预览

相关内容

【经典书】模式识别导论,561页pdf
专知会员服务
81+阅读 · 2021年6月30日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【CMU】机器学习导论课程(Introduction to Machine Learning)
专知会员服务
59+阅读 · 2019年8月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月18日
Arxiv
0+阅读 · 2021年11月15日
Arxiv
24+阅读 · 2020年3月11日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年1月14日
VIP会员
相关资讯
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年11月18日
Arxiv
0+阅读 · 2021年11月15日
Arxiv
24+阅读 · 2020年3月11日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年1月14日
Top
微信扫码咨询专知VIP会员