Social Networking Sites (SNS) are one of the most important ways of communication. In particular, microblogging sites are being used as analysis avenues due to their peculiarities (promptness, short texts...). There are countless researches that use SNS in novel manners, but machine learning has focused mainly in classification performance rather than interpretability and/or other goodness metrics. Thus, state-of-the-art models are black boxes that should not be used to solve problems that may have a social impact. When the problem requires transparency, it is necessary to build interpretable pipelines. Although the classifier may be interpretable, resulting models are too complex to be considered comprehensible, making it impossible for humans to understand the actual decisions. This paper presents a feature selection mechanism that is able to improve comprehensibility by using less but more meaningful features while achieving good performance in microblogging contexts where interpretability is mandatory. Moreover, we present a ranking method to evaluate features in terms of statistical relevance and bias. We conducted exhaustive tests with five different datasets in order to evaluate classification performance, generalisation capacity and complexity of the model. Results show that our proposal is better and the most stable one in terms of accuracy, generalisation and comprehensibility.


翻译:社交网络站点(SNS)是最重要的沟通方式之一。 特别是,微博客站点因其特殊性( 快速性、 短文本...)而被用作分析渠道。 有许多研究以新颖的方式使用SNS, 但机器学习主要集中于分类性能, 而不是可解释性和/或其他良好指标。 因此, 最先进的模型是黑盒, 不应用来解决可能具有社会影响的问题。 当问题需要透明度时, 有必要建立可解释的管道。 虽然分类器可能可解释, 由此产生的模型可能过于复杂, 无法让人理解, 使得人类无法理解实际决定。 本文展示了一个特征选择机制, 能够通过使用较少但更有意义的特征来提高可解释性, 同时在必须进行解释的微博环境中取得良好的性能。 此外, 我们提出了一个评估统计相关性和偏差特征的排序方法。 我们用五种不同的数据集进行了详尽的测试, 以评价分类性能、 概括性能和复杂性为目的, 最精确性地展示了我们的建议。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年2月6日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
24+阅读 · 2020年12月12日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
6+阅读 · 2017年11月27日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2018年3月14日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年2月6日
自然语言处理顶会COLING2020最佳论文出炉!
专知会员服务
24+阅读 · 2020年12月12日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
6+阅读 · 2017年11月27日
Top
微信扫码咨询专知VIP会员