项目名称: 中文社交化短文本情感分析与话题挖掘研究

项目编号: No.71501003

项目类型: 青年科学基金项目

立项/批准年度: 2016

项目学科: 管理科学

项目作者: 王德庆

作者单位: 北京航空航天大学

项目金额: 17.4万元

中文摘要: 面向大规模文本的情感分析与话题挖掘一直以来都是商务智能领域的核心研究问题。随着社交媒体的迅速发展,用户对某一产品、新闻事件或生活体验的评价越来越丰富。这些社交化短文本的海量、高维、高稀疏特点以及中文语料的匮乏对传统的情感分析和话题挖掘算法提出了严峻的挑战。本项目尝试采用跨语言的情感分析和软正交约束的非负矩阵分解技术来解决上述问题。具体包括:1)针对社交短文本高稀疏的特点,将词语共现矩阵和正交化相结合,研究大规模短文本的非监督特征选择问题;2)利用现有的、丰富的英文情感语料和结构对应学习算法,研究并提出空间迁移的跨语言短文本半监督情感分类算法;3)针对传统方法挖掘的话题语义内聚性不强及指示词不突出问题,引入软正交约束,研究基于非负矩阵分解的短文本话题挖掘算法;4)研发系统原型,并针对产品-用户微博评论展开应用研究。本项目将为社会化媒体环境下的商务智能理论与实践提供有益参考。

中文关键词: 文本分类;跨语言情感分析;迁移学习;特征选择;话题挖掘

英文摘要: Sentiment analysis and topic mining for large scale text have always been the core research points in business intelligence field. With the rapid growth of social media, users generate more and more reviews on a product, a news event or a life experience. The huge-volume, high-dimensional, high-sparse characteristics of these social media and the lack of Chinese corpora post severe challenges to the traditional sentiment analysis and topic mining algorithms. In this project, we try to handle the issue by cross-lingual sentiment analysis and non-negative matrix factorization (NMF) with soft orthogonal constraint techniques. Specifically, 1) To avoid high sparseness of large scale social short texts, we combine word co-occurrence matrix and orthogonalization process to propose an unsupervised feature selection algorithm; 2) We propose a semi-supervised learning algorithm with space transfer for cross-lingual sentiment analysis of Chinese short text, which employs existing abundant English sentiment corpora and extends structural correspondence learning; 3) To conquer the weakness of topic coherence and indicators of traditional topic model methods, we introduce soft orthogonal constraints into NMF-based topic mining model of social short text; 4) We will finally develop a prototypical system, which will be used for product-users’ micro blog reviews to verify its effectiveness. The project will provide great values in terms of both theories and practices to business intelligence under social media environment.

英文关键词: Text Classification;Cross-lingual Sentiment Analysis;Transfer Learning;Feature Selection;Topic Mining

成为VIP会员查看完整内容
3

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
港中文等最新《多模态元学习》综述论文
专知会员服务
124+阅读 · 2021年10月8日
专知会员服务
35+阅读 · 2021年8月1日
专知会员服务
56+阅读 · 2021年4月20日
基于生理信号的情感计算研究综述
专知会员服务
62+阅读 · 2021年2月9日
实体关系抽取方法研究综述
专知会员服务
178+阅读 · 2020年7月19日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
102+阅读 · 2019年12月13日
文本情感分析方法研究综述
专知
4+阅读 · 2021年4月20日
【情感分析】情感分析研究的新视野
深度学习自然语言处理
15+阅读 · 2020年3月10日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2019年6月19日
Knowledge Representation Learning: A Quantitative Review
A Survey on Deep Learning for Named Entity Recognition
Arxiv
73+阅读 · 2018年12月22日
小贴士
相关VIP内容
相关资讯
文本情感分析方法研究综述
专知
4+阅读 · 2021年4月20日
【情感分析】情感分析研究的新视野
深度学习自然语言处理
15+阅读 · 2020年3月10日
【哈工大SCIR】多模态情感分析简述
深度学习自然语言处理
33+阅读 · 2019年12月14日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员