This work investigates the application of sampling methods for sentiment analysis on two different highly imbalanced datasets. One dataset contains online user reviews from the cooking platform Epicurious and the other contains comments given to the Planned Parenthood organization. In both these datasets, the classes of interest are rare. Word n-grams were used as features from these datasets. A feature selection technique based on information gain is first applied to reduce the number of features to a manageable space. A number of different sampling methods were then applied to mitigate the class imbalance problem which are then analyzed.


翻译:这项工作调查了对两个高度不平衡的数据集进行情绪分析的抽样方法的应用情况。一个数据集包含烹饪平台Epicuricous的在线用户审查,另一个数据集包含对计划生育组织的评论。在这两个数据集中,感兴趣的类别是罕见的。这些数据集中使用了单词 n 克作为字词。首先,根据信息收益选择特征技术,将特征数量减少到一个可控制的空间。然后,采用了一些不同的抽样方法来缓解分类不平衡问题,然后对分类不平衡问题进行分析。

0
下载
关闭预览

相关内容

数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
Arxiv
25+阅读 · 2018年1月24日
Arxiv
5+阅读 · 2018年1月23日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
42+阅读 · 2020年7月27日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】深度学习情感分析综述
机器学习研究会
58+阅读 · 2018年1月26日
Top
微信扫码咨询专知VIP会员