本文为3月29日晚,达观数据联合创始人张健在将门技术社群,分享如何在海量的文本数据中提炼出有价值观点的内容的回顾。
主要内容包括结合实践经验,盘点观点挖掘的应用场景及价值、目前业界主流的观点挖掘技术以及该技术目前面临的挑战。
获取完整PDF+视频回顾>>关注“将门创投”(thejiangmen)微信公众号,回复“180330”获取下载链接。
以下为根据直播整理的文字内容:
一、什么是文本观点挖掘?
在简单介绍观点挖掘的基本概念之后,张健首先对“观点”的五个组成要素进行了强调:
1. 观点评价对象(客体);
2. 观点评价对象的属性。例如,我评价谁哪里哪里好,又哪里哪里不好,“哪里”就是属性;
3. 观点所蕴含的情感极性。包括正面、负面、中性等;
4. 观点的持有者。在考虑到处理问答、对话的流程,涉及到主体的识别;
5. 观点的时间。这对观点是有一定影响意义在的,因为随着时间变化,观点持有者也可能改变自己的观点。
结合自己的业务经验,张健罗列了观点挖掘可能涉及到的一些任务类型,具体而言:
情感分类
我们所收集到的一些观点文本,可能都存在一定的情感倾向性,觉得XX是好的,XX是不好的,这可以帮助分析文本的倾向性;
观点抽取
从一段文本中属于观点的文本内容抽取出来,主要是为了方便分析人员从文本中获取结构化的有用的信息;
观点过滤
主要是由于海量数据当中会存在大量无效的信息,这需要被清理掉,以免影响观点挖掘的处理效率和准确率;
评价质量
这并非评价好坏之分,而是对于分析人员来说,这些评价需要有足够的信息量,能够对销售决策更有帮助。这在电商场景当中最为常见;
意图识别
在很多场景下,都是可以根据观点来发现观点持有者真正的意图,例如可以发现这个观点持有者究竟想不想要购买商品。
二、为什么要做文本观点挖掘?
转自:将门创投
完整内容请点击“阅读原文”