【NLP.TM】
本栏目是结合我最近上的课,和我最近的研究方向,自然语言处理和文本挖掘而设计的,会讲一些和自然语言处理以及文本挖掘相关的内容,欢迎大家关注和交流!
往期回顾:
【NLP.TM】句法分析综述
【NLP.TM】NLP和TM的深度概述
上次是从我自己的研究角度来谈观点分析,这次是我上自然语言处理的课程笔记整理。长文预警。
观点是指人们对事物的看法,具有明显的主观性,不同人对同一事物的看法存在差异。一般可以描述为“谁”对“什么事物”的“什么属性”所具有的“什么观点”,有时还会加上时间这一个角度,因为不同时间一个人对同一事物的观点可能也不同。而观点挖掘与倾向性分析则是指从海量数据中挖掘观点信息,并分析观点信息的倾向性。
对企业而言,可以做商品和企业形象的舆情分析,能够了解整体舆论趋势,快速找到舆论焦点,发现商机,进行企业形象管理以及精准营销。对普通用户而言,能了解某件事件的事态发展,商品的质量预评价,对政策的一些观点评价等。对政府而言,能够在识别舆情的情况下控制舆论走向,监控人们活动。
观点分析的主要任务有:
观点及倾向性识别
观点要素抽取
观点检索
针对观点识别的内容主要有:
观点识别
极性判断(好评,中评,差评)
强度分析(非常好和还行的区分)
情感识别粒度(词汇级,特征级,句子级,篇章级)
观点属性抽取则主要包括观点持有者和观点对象。
情感的识别主要情感识别粒度来分类,分为词汇层面、句子层面、篇章层面与其他。
基于词汇的情感识别主要针对词语的情感倾向性,具有模型直观,易于计算等优点,但是利用词典或者大规模语料方法计算词之间相似性易产生噪音,同时部分词语的倾向性与上下文相关,片面地用词汇表示情感不合适,同时很多词汇的分析都只局限在形容词,名次动词之类的也是有倾向性的。
主要的思路是利用词的相似度来进行匹配和对比,主要方法是基于词典的方法与基于语料库两种。Hu(KDD 2004)利用词汇之间在WordNet中的同反义来进行比对,Hassan(ACL 2010)与Kamps(LREC 2004)同样利用wordnet进行分析和匹配,构建语义图,然后利用随机游走和最短距离模型进行计算。基于语料的方法中,Turney(ACL 2002)提出Near算子,结合网络资源等信息,分析两者的相关度;Du(WSDM 2010)认为在不同的领域需要不同的情感词典,不同领域之间的情感预料应用是一个迁移问题。
句子层面的情感识别较为复杂,难度主要在于情感的识别,主要方式有基于语料的与基于词汇的,然而仍存在监督学习的标签问题,无监督方法难以迁移的问题亟待解决。
运用传统的文本分类方法是目前的主流,通过Unigram、Bigram、POS、Adj.、Position等方法进行文本表示,涉及支持向量机、朴素贝叶斯、最大熵、决策树等常用机器学习方法;另一方面,倾向转移,如“这家店铺的事物不是很好吃”,这里面的倾向转移难以识别,主要是通过词典信息 (Ikeka IJCNLP 2008)和特征选择 (Li Coling 2010)进行实现。基于词汇的方法主要针对句子中的词倾向性来识别句子的含义。Turney(ACL 2002)用POS进行文本表示,PMI进行词汇倾向分析,最后计算整个句子的情感倾向;Taras(COLING 2008)则利用了句子和词汇混合方法进行联合识别;Qiu(CIKM 2009)提出自学习方法,利用词典信息产生初始标注利用置信度高的样本作为训练集,训练分类器利用启发式规则对于多个分类器进行集成;另外还有半监督方法(Li ACL 2009),建立文档与词汇的共现矩阵,训练Matrix Factorization Model,利用少量的标注语料以及词典的先验知识,同时对于未标注样本进行标注。
文档层面的情感分析主要识别篇章整体观点和整体倾向性。方法和思路与句子层面的分析有很类似,然而其难点是一个文章中可能会有更为明显的观点变化和多观点倾向。
Pang(ACL 2004)认为篇章中的客观句子对于篇章整体的观点倾向性没有意义,于是利用图算法从篇章中识别出观点句,剔除客观句,只考虑观点句来识别篇章观点;McDonald(ACL 2007)则认为文章中每句话都能对篇章观点有贡献,所以在句子级倾向性识别与篇章级倾向性识别一体化的基础上,考虑句子的上下文特征,提出结构化CRFs模型;Lin(CIKM 2009)和Mei(WWW 2007)认为篇章整体的观点倾向性是篇章中针对每个子主题的观点倾向性的集成,提出篇章主题信息与观点信息协同挖掘。
不同的语言会有特定的特点,跨语言的情感分析主要研究点是缺乏训练数据下的分析、利用其他资源、借鉴其他语言的情感分类等问题,主要解决的方案是翻译与匹配、集成策略以及多视角策略。
跨领域则是目前的一个研究热点,主要是不同领域对下情感倾向会有差异,尤其是比较性观点,另外同样的词在不同的领域倾向不同,不同领域的使用的观点词不同导致特征提取出现问题,另外训练数据比较有限。主要的解决方案有两种,针对不同领域,一方面认为不同领域,特征相同但是数据分析不同(Jiang ACL 2007; Dai AAAI 2007),即特征权重不同,另一种认为不同领域有不同的特征,于是需要构建统一的特征体系(Blitzer ACL 2007; Liu CIKM 2009; Pan WWW 2010)
观点分析目前已经有丰硕的成果,大量方法已经投入使用,但是仍存在不少问题,制约情感分析的有效性,例如情感的量化描述,句法现象的识别与分析(转折、否定、反语、比较等),稀疏数据,领域的可迁移性,多观点混合等,有待进一步深入的研究。
上完这次课,感觉知识体系会更加完善,这是读论文所不能有的,不过,还是要通过阅读文献来丰富自己的认识,让自己的知识体系更加丰满,个人简介之后就是参考文献,继续往下拉吧,超级多!
参考文献
这是上面涉及到的一些参考文献,有兴趣可以深入阅读,在这么狂躁的时代下静下心去读,去理解,才能比别人向前迈更大的一步。
【1】J. Blitzer, M. Dredze and F. Pereira. Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL). pages 440-447. 2007.
【2】Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Transferring Naïve Bayes
Classifiers for Text Classification. In Proceedings. of AAAI. 2007.
【3】Weifu Du, Songbo Tan, Xueqi Cheng, Xiaochun Yun: Adapting information bottleneck method for automatic construction of domain-oriented sentiment lexicon. WSDM 2010:111-120
【4】Ahmed Hassan, and Dragomir Radev. 2010. Identifying Text Polarity Using Random Walks. The 48th Annual Meeting of the Association for Computational Linguistics
M. Hu and B. Liu. Mining Opinion Features in Customer Reviews. In Proceedings of AAAI, 2004.
【5】Xuanjing Huang and W. Bruce Croft. A Unified Relevance Model for Opinion Retrieval. In Proceedings of CIKM 2009.
【6】Jaap Kamps, Maarten Marx, Robert J. Mokken and Maarten de Rijke. Using WordNet to measure semantic orientation of adjectives. In Proc. of LREC’04, pp. 1115-1118, 2004.
【6】Jin Jiang and ChengXiang Zhai. Instance Weighting for Domain Adaptation in NLP. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL), pages 264-271. 2007.
【7】Soo-Min Kim and Eduard Hovy. Identifying Opinion Holders for Question Answering in Opinion Texts.2005. In Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains
【8】Binyang Li, Lanjun Zhou, Shi Feng, Kam-Fai Wong, A Unified Graph Model for Sentence-based Opinion Retrieval, In Proceedings of ACL 2010
【9】Tao Li, Yi Zhang and Vikas Sindhwani. A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge. In Proceedings of ACL. 2009.
【10】Shoushan Li, Rui Xia, Chengqing Zong, Chu-Ren Huang: A Framework of Feature Selection Methods for Text Categorization. ACL/AFNLP 2009: 692-700.
【11】Shoushan Li, Sophia Yat Mei Lee, Ying Chen, Chu-Ren Huang, Guodong Zhou: Sentiment Classification and Polarity Shifting. COLING 2010: 635-643
【12】Fangtao Li, Chao Han, Minlie Huang and Xiaoyan Zhu. Structure-Aware Review Mining and Summarization. In The 23rd International Conference on Computational Linguistics (COLING 2010)
【13】Bing Liu, Minqing Hu and Junsheng Cheng. “Opinion Observer: Analyzing and Comparing Opinions on the Web” To appear in Proceedings of the 14th international World Wide Web conference (WWW-2005), May 10-14, 2005, in Chiba, Japan
【14】Kang Liu and Jun Zhao. Cross-Domain Sentiment Classification using a Two-Stage Method. In Proceedings of the 18th ACM Conference on Information and Knowledge Management (CIKM). November 2-6, 2009, Hong Kong
【15】Chenghua Lin and Yulan He. Joint Sentiment/Topic Model for Sentiment Analysis. In Proceedings of CIKM’s 09. 2009
【16】Y. Mao and G. Lebanon, Isotonic Conditional Random Fields and Local Sentiment Flow. Advances in Neural Information Processing Systems 19, 2007
【17】Ryan McDonald, Kerry Hannan and Tyler Neylon et al. Structured Models for Fine-toCoarse Sentiment Analysis. In Proceedings of ACL, 2007, pp. 432-439.
【18】Qiaozhu Mei, Xu Ling, et al. Topic Sentiment Mixture: Modeling Facets and Opinions in Weblogs. In Proceedings of WWW 2007.
【19】Prem Melville, Wojciech Gryc and Richard D. Lawrence. Sentiment Analysis of Blogs by Combining Lexical Knowledge with Text Classification. In Proceedings of KDD. 2009.
【20】Bo Pang and Lillian Lee. 2004. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. In Proceedings of the Association of Computational Linguistics (ACL).
【21】Bo Pang, Lillian Lee and Shivakumar Vaithyanathan. 2002. Thumbs up? Sentiment classification using machine learning techniques. In Proceedings of EMNLP 2002, pp.79- 86.
【22】Sinno Jialin Pan, Xiaochuan Ni, Jian-Tao Sun, Qiang Yang and Zheng Chen. CrossDomain Sentiment Classification via Spectral Feature Alignment. In Proceedings of the 19th International World Wide Web Conference (WWW-10). Raleigh, NC, USA. April 26-30, 2010. Pages 751-760.
【23】Popescu A. M. and Etzioni O. Extracting Product Features ad Opinion Reviews. In Proceedings of EMNLP’05, 2005.
【24】L. Qiu, Weishi Zhang, Changjian Hu and Kai Zhao. SELC: A Self-Supervised for Sentiment Classification. In Proceedings of CIKM, 2009.
【25】Guang Qiu, Bing Liu, Jiajun Bu, Chun Chen: Expanding Domain Sentiment Lexicon through Double Propagation. IJCAI 2009: 1199-1204
【26】Peter Turney. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In Proceedings of ACL. 2002.
【27】Xiaojun Wan. Co-Training for Cross-Lingual Sentiment Classification. In Proceedings of ACL-IJCNLP, pages 235-243, 2009.
【28】Xiaojun Wan. Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis. In Proceedings of EMNLP, pages 553-561. 2008.
【29】Bo Wang, Houfeng Wang: A Cross-Inducing Method for Bootstrapping Product Features and Opinion Words. In Proceedings of 2008 International Conference on Natural Language Processing (IJCNLP 2008), India
【30】Janyce Webie, Theresa Wilson and Claire Cardie. Annotating expressions of opinions and emotions in Proceedingsof lauguage. Language Resources and Evaluation 2005
【31】Taras Zagibalov. and John Carroll. Automatic seed word selection for unsupervised sentiment classification of Chinese text. In Proceedings of The 22nd International Conference on Computational Linguistics (COLING), 2008. Manchester, UK.
【32】Min Zhang and Xingyao Ye. A Generative Model to Unify Topic Relevance and Lexiconbased Sentiment for Opinion Retrieval. In Proceedings of SIGIR, pp. 411-418, 2008.
【33】Jun Zhao, Kang Liu and Gen Wang. Adding Redundant Features for CRFs-based Sentence Sentiment Classification. In Proceedings of the Conference on Empirical Methods on Natural Language Processing (EMNLP). October 25-27, 2008, Hawaii
【34】Jingbo Zhu, Huizhen Wang, Benjamin Tsou and Muhua Zhu. 2009. Multi-aspect opinion polling from textual reviews, In Proceedings of CIKM‘09, short session, pp1799-1802
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方"AINLP",进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
推荐阅读
征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)
完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)
模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法
文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化
斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。
阅读至此了,分享、点赞、在看三选一吧🙏