你最关心的马蜂窝事件舆论全景图在这里,用文本挖掘一挖到底

2018 年 10 月 30 日 大数据技术

来自:deardata(微信号:deardata)

作者:谭婧,苏格兰折耳喵


企业作为社会基本的细胞,在守法盈利的同时,担负着服务消费者、社区、社会等利益相关方的重要责任。互联网企业是互联网时代的宠儿,举手投足备受关注。所谓成也萧何,败也萧何。大众的高度关注成就了品牌知名度,但是,这种关注度也变成了无形的压力,增加了互联网企业和利益相关方沟通的难度。中国互联网企业的创始团队往往见长于技术,在如何主动与公众沟通方面还有很长的路要走。常在“爆料式”传播事件中占不了辩论的上风,被动得很。于是乎,一有危机事件发生,互联网就成了信息传播速度最快,但信息也最为混沌的地方,事实与谣言边界模糊。


  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日


这不是一个国产的问题,前不久Facebook也因面临挑战,在软件中推出反辱骂等限制不良评论的功能。早在1947年,美国学者奥尔波特(Gordon W.Allport)和波斯特曼(Leo Postman)就提出谣言的传播公式:谣言的流通量=事件的重要性×事件的模糊性(Rumor=Importance×Ambiguous)。该公式自提出后一直被学界奉为圭臬。纵观中国互联网企业危机事件的大事记,涉事企业往往保持沉默,置之不理或者回应回避要害,导致事件的模糊性不断放大,而法律诉讼又具有一定的滞后性。几件要素共同作用,形成了网络谣言与真相起此彼伏的奇景,群众看不到事情的真相,涉事企业或委屈满腹,或诚惶诚恐,或羞于提及。虽然互联网拉近了人与人距离,使得信息处理无比高效,不断激发出新的传播方式,可是每一次热点事件爆发,人们距离真相依然非常遥远。

  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

本文采取文本分析与数据挖掘的数据科学方法对本次「马蜂窝涉嫌数据造假」事件的舆情进行分析,挖掘本次传播现象,主要侧重于分析全网媒体对该事件的参与。以最直观的方式做出呈现与描述,不做结论性判断,意欲抛砖引玉,鼓励与企业利益最紧密相关的利益相关方从各自视角,积极发声、站出来为公众解读事实。

(一)分析篇

一、我们用什么工具一挖到底?

原始数据:我们分析了全网2000条以上的新闻数据,数据来自新浪、网易、搜狐等门户网站,以及虎嗅、36氪等科技资讯网站,以上新闻文本数据经过标题去重,也就是说,媒体平台之间相互转发的文章,我们已经将重复标题的新闻文本数据去除。

时间段:10月21日、22日、23日。

工具:编程语言Python,Scrapy爬虫抓取框架,Genism文本分析库,Wordart绘制个性化词云

二、热度指数,大家究竟有多关注?

图一:热度指数趋势与爆发时间段。

  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

因为考虑到事件检索的相关性,所以我们设定热度指数的关键词检索方案为「马蜂窝+数据造假」。我们观察热力指数图,本事件首日,也就是2018年10月21日的热度指数仅约为13.00,但是在第二日(10月22日),峰值冲到61.56,随后正常回落。

第三日(10月23日)事件热度指数回落后,再次冲向41.00。这样的变化,符合关注此事件人们的直观感受,舆论的潮水一浪未平又起一浪,一浪更比一浪强。爆料团队在23日的再一次发声,将本来已经平息的事件再次推向高潮。此处,我们横向对比日常新闻事件的热度指数。虽然娱乐人物流量属性较强,但是“王源调侃失败自拍尝试” 热度指数为43.55。社会公众对此次事件的关注度不言自明。

  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

图二:活跃媒体对此事的跟进与报道,如图所示,新闻报道来自新浪、网易、搜狐等门户网站,来自微信公众号、百度百家号和今日头条的信息平台。排名前五的媒体都贡献了10%以上份额,可见媒体均对此事充分重视,并无哪家媒体的声量一家独秀,其中信息量贡献最大的依然是微信平台。这也符合关注此事件人们的直观感受,爆料团队在微信公众号平台首发消息,各家媒体紧随其后进行报道与解读,显示了媒体对此事反应非常迅速。也符合文章开头所提到的社会现象,互联网企业吸引眼球、备受关注。既因为存在互联网群众对信息获取的刚需,也因为媒体对互联网敏锐的嗅觉。如此供需匹配,形成信息供需的有效闭环,良莠不齐的资讯都会被这轮信息流吸收和放大。

  •  数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

三、关键词词云图,大家都在讨论啥?

词云图是文本数据可视化的常用工具,我们选取排名前五十的关键词来绘制关键词云图。可以看到,排名前十的词语分别是:

1.  马蜂窝

2.  点评数据

3.   点评

4.   内容

5.   抄袭

6.   UGC(中文为,用户创造内容)

7.   交易

8.   虚假账号

9.   平台

10. 数据造假



  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

舆论关注点一:内容

马蜂窝以游记和攻略起家的公司,与用户有着较深的情感连接,在消费者的品牌意识里,马蜂窝不仅仅是一款旅游产品/平台,它提供给人们的是对于自由生活的向往,是一种不被束缚、逃离俗世的情感归属感,一种正面的价值观。而这种价值观让品牌个性年轻有趣,让人向往,具有很强的品牌领导力,这也是马蜂窝虽然处在在线旅游市场的第二梯队,营业收入(GMV)远远低于第一梯队携程等企业的情况下,其品牌知名度、口碑不亚于第一梯队。正如马蜂窝所主张的:向崇尚自由的加勒比海盗致敬。


根据其性质,马蜂窝的核心竞争是源于其社区里活跃着一批不断生产内容,并对社区品牌有认同的用户,产生大量优质的原创旅游攻略等内容。而我们从分析中可以看出,在与马蜂窝相关的全部信息中,被提及频次最高的词语分别为「点评」、「内容」和「抄袭」。从广义上讲,抄袭是原创的反义词。「内容」一词反复出现,是关键词中的关键词,可见舆论重视程度之高,与其类似的「评论」、「问答」、「游记」、「攻略」均排在前五十,可见舆论对马蜂窝涉嫌作假的细节有所了解,清楚知道哪一块出现了问题。按照马蜂窝的所属行业,有关旅游产品的词汇包括机票、酒店、自助游、自由行、目的地旅游等,这类词没有一个出现在前五十的关键词中,可见舆论聚焦度高,讨论的火力都集中在举报团队质疑的核心问题上,事件的焦点充分聚焦,没有出现指东骂西,东拉西扯的谣言。

关于内容的词汇,以「假」字居多,「抄袭」、「造假」、「虚假」成为核心关键词,可见马蜂窝的品牌形象有所跌落,品牌美誉度受损。


另外,「马蜂窝」一词,在此次事件语境下,一语双关。既是公司名称,又意喻招惹麻烦,惹祸上身。词云图中字体大小与重要度相关。「马蜂窝」一词字体最大最突出。我们可以直观感受到,确实也有不少媒体拿捅了「马蜂窝」用作新闻标题。

在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:

1. 近日,某自媒体账号发布文章称,马蜂窝旅游网部分点评及评论信息存在虚假内容,并以此质疑马蜂窝旅游网的数据及用户真实性。

2. 标题:马蜂窝:餐饮点评非内容核心 自媒体报道有明显误导

舆论关注点二:投资方

第二个舆论关注的焦点是关于马蜂窝的投资方。「投资人」、「资本」、「估值」、「融资」均排话题中的主题词在前五十。马蜂窝被业内人士称为旅游界的大众点评。第一、由于马蜂窝的业务涉及旅行的所有环节,具有覆盖旅游前、旅游中、旅游后全旅游周期的用户行为数据。第二、原创是互联网内容最有价值的部分,马蜂窝内容产出中心自然而然成为马蜂窝最大的流量入口。简单的说,拥有了数据与流量,马蜂窝可以在这个链路的任何一个结点上变现。从某种角度,讲和其他的互联网公司一样,马蜂窝是一家数据公司。有说得通的商业逻辑,又有一定的营业收入,使得马蜂窝在融资的路上顺风顺水。

  • 截图来源于B站

这次事件与上市企业的危机有本质的不同,原因在于公司的性质。马蜂窝属于融资轮次企业,并没有公开向公众发售股票来融资。一旦这个类型的公司出现负面问题,最受伤害的是投资方。由于马蜂窝估值较高,达175亿,所以「估值」、「融资」成为重点。不仅「估值」一词受关注,关于融资情况的一整句话——2017年12月12日,成立11年的老牌旅游网站马蜂窝宣布获得D轮巨额融资,淡马锡、今日资本等合计投资1.33亿美元。入选「马蜂窝+数据造假」话题中的代表性语句。事实上马蜂窝确实受到鸥翎投资、美国泛大西洋资本集团、高瓴资本、Coatue、CoBuilder、启明创投、Rich Barton、今日资本等机构的青睐。

那么,投资人和马蜂窝的底气在哪里?

据了解,2017年中国出游人次达51.3亿,整体收入为5.4万亿,年度增幅为15.1%。近年来,旅游市场保持着稳定增长,国内排名靠前的在线旅游平台都活得风生水起,份额稳定。马蜂窝的底气来源于三点:

第一、如今的马蜂窝已经不仅仅是一家靠出售流量和广告进行导流和转化的平台,慢慢地向一端连接海量用户,一端对接合作商户的平台转变。商业变现的可行性会增强。


第二、旅游消费习惯发生了变化,“专家型”消费者的比例大幅提升。业内人士表示,这一变化也推动着像中青旅这样的老牌企业转型。例如,中青旅的签证业务增长较快,观察用户数据发现,一个中青旅的老用户,一个自然年度在中青旅办七次签证,也不会报名一次跟团游。这种市场的转型,对于马蜂窝是有利的,有旅行需求的专业型消费者越多,对专业的、细致的旅游信息需求越旺盛,这是马蜂窝的优势。

第三、旅游产品具有长决策周期的属性,且消费者对旅游目的地的选择容易受到信息的影响,进而影响决策。如果有刚需存在,受到签证办不下来、航班、线路等负面问题的影响,消费者有较大可能更改旅游目的地。马蜂窝所产出的信息对消费者决策影响力比一般电商所售卖商品的用后评价更有说服力和影响力,提高内容的精准度,就能够带动用户粘性和销售转化率提高。


「投资人」、「资本」、「估值」、「融资」等关键词的本质是有大家都在关心马蜂窝的商业模式和核心盈利能力。这些也是投资人与机构能够为其做出175亿估值,并且买单的原因。这块是本次话题讨论的第二大焦点。相关报道中,存在不少报道直接以175亿作为新闻标题。

在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:

1. 如果大量造假情况真实存在,马蜂窝的融资计划还能顺利进行吗?

2. 标题:马蜂窝被曝大规模抄袭用户点评 新一轮融资前陷危机

3. 标题:马蜂窝被爆“点评造假”,或将像熊猫直播一样融资落空?

4. 标题:被捅的马蜂窝:融资暗战和五毛党江湖

我们认为,可以做出合理推论:投资机构的投资行为成为困扰舆论的最大问题。


舆论关注点三: 围绕话题风暴的中心「马蜂窝+数据造假」,网民还讨论了什么?

当网民在讨论「马蜂窝+数据造假」这个问题时,还讨论了哪些问题?我们需要挑选出之前报道中出现频率较高的词汇,进行文本相似度计算。技术原理是用Python工具包Gensim跑多种主题算法。

我们选取了“马蜂窝+数据造假”作为检索条件,按照「马蜂窝」「数据造假」的关联词的相关程度,从高到低排序。「承认」「指控」「维护」「攻击行为」「发酵」「歪曲事实」排在前面。分析中可以看出:

第一、大家都在讨论与事实相关的信息。

与事实相关的包括,基于事实的「声明」、「歪曲事实」、对事实的「质疑」、对事实的「否认」,讨论的话题都没有离开事实。换句话说,人民群众高度重视事实,想要了解真相,这是一场围绕寻找事实真相的大讨论。总体看来,追求事实的真相是本次热议的关键。

第二、辩论双方和其举动。

「声明」「承认」与「指控」是爆料团队与被爆料企业在事件中你来我往的举动,也就是说,双方的一举一动都牵动着互联网人民群众的心。「起家」一词也被多次讨论,涉事一共有两方,「起家」显然是关于马蜂窝的企业成长历史,可见关于涉事企业本身的讨论也是热点议题,网民关心涉事企业是一家什么样的企业,拥有哪些服务,有着怎样的历史。「攻击行为」则是属于对于爆料团队的推测。


  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

第三、与话题相关度上来看,「抄袭」「水军」「账号」关系最为密切,其次,「数据造假」与「搬运」等词的关系很近。「水军」也与话题关系很近。依据常识,水军和僵尸是内容作假的主力。此次事件也将互联网的造假术推上风口浪尖。


  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:

1. 评马蜂窝扒友商用户评论:互联网企业不能没底线。

2. 南都记者梳理网上公开资料发现,在同类型的旅游APP中,马蜂窝旅游并非首家被质疑涉嫌数据造假,同程等旅行网站也出现过类似情况。

3. 标题:旅游数据造假?马蜂窝旅游被指涉嫌造假1800万数据

4. 马蜂窝“点评造假”?


  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

(二)拷问篇

目前该事件已有司法部门介入,尚无定论。在本文中,我们谨慎用词,仅用“涉嫌”一词对本事件的主角进行描述。可以这样说,「马蜂窝捅了马蜂窝」事件,在大数据与人工智能如此火热的气候环境里,用大数据技术给大众上了一堂生动的科普课。

但是,关于此次事件,尚存许多问题值得拷问:

如果涉嫌一事坐实,这会不会成为互联网投资史上最响亮的耳光?

如果涉嫌一事坐实,为什么能用假数据圈了将近175亿人民币?

如果涉嫌一事坐实,著名资本看好,甚至不止一次看好的公司为什么会出问题?优秀的VC都是眼瞎吗?还是心系击鼓传花,无意刺破那窗户纸?

如果涉嫌一事坐实,高估值的互联网公司是距离公开发行的股票的资本市场最近的企业,VC投资人上市套现,下一步股民买单,风险投资人的社会责任感在哪里?

如果涉嫌一事坐实,多方信息显示不止马蜂窝一家造假,那么互联网的造假手段到底有没有人管?

如果涉嫌一事为假,爬虫软件涉及法律的灰色地带该如何从法律的角度解读?有关部门和有关专家是否能抓住这次普法的大好时机,有针对性解答社会热点问题。

(完)


数据挖掘知识补充介绍:

想要弄清楚大家都在讨论啥,需要两个步骤。一个针对词,一个针对句子。

第一步、提取关键词。

新闻作为内容类文本,从自然语言处理的浅层次理解,可以有两种机器学习的方法来处理。其一无监督学习,采用TF-IDF(term frequency–inverse document frequency)关键词提取方法对大量文本中出现的关键词汇进行重要度打分。也就是说,机器会告诉你,这些新闻中,到底谁最重要?TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频,IDF意思是逆文本频率指数,在这种方法中,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,作为相关程度的度量或评级。但是这还不够,在此算法基础上我们增加了新的特征:

  • 词的位置。一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词。

  • 词性。词性是通过分词、语法分析后得到的结果。现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,名词与其他词性相比更能表达一篇文章的主要思想

  • 词长。一般较长的词汇是特殊的,能表达特定主题,语义丰富。

第二、文本聚类,处理句子。

对于句子的分析,我们使用基于矩阵分解的非负矩阵分解算法(Nonnegative matrix factorization, NMF)对语料进行典型意见抽取,也就是从海量的文本中抽取出最具代表性的若干话题,以及若干话题下具有代表性的主题词和主题句。这些语句根据语义相似性聚在一起,形成一个个簇群。

美编:陈泓宇

摄影:陈翔宇


●编号701,输入编号直达本文

●输入m获取文章目录

推荐↓↓↓

算法与数据结构

更多推荐18个技术类公众微信

涵盖:程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。

登录查看更多
0

相关内容

【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
事理图谱:事件演化的规律和模式
哈工大SCIR
34+阅读 · 2019年7月19日
奔驰女车主同意和解,舆情分析全事件
THU数据派
10+阅读 · 2019年4月17日
白雪 | NLP加持知识图谱在金融事件挖掘中的应用
开放知识图谱
14+阅读 · 2018年9月21日
GDPR之风盛行,美、印、巴接连启动数据保护立法
百度公共政策研究院
4+阅读 · 2018年8月29日
文本数据分析(一):基本框架
论智
6+阅读 · 2018年4月9日
用深度学习挖掘海量文本中的宝藏
AI前线
8+阅读 · 2018年3月13日
干货来袭:漫谈概率统计方法与因果关系
数据猿
5+阅读 · 2018年2月23日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
贾跃亭的汽车梦,还轮不到我们嘲笑
虎嗅网
5+阅读 · 2017年7月6日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Polarity Loss for Zero-shot Object Detection
Arxiv
3+阅读 · 2018年11月22日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
4+阅读 · 2017年11月4日
VIP会员
相关资讯
事理图谱:事件演化的规律和模式
哈工大SCIR
34+阅读 · 2019年7月19日
奔驰女车主同意和解,舆情分析全事件
THU数据派
10+阅读 · 2019年4月17日
白雪 | NLP加持知识图谱在金融事件挖掘中的应用
开放知识图谱
14+阅读 · 2018年9月21日
GDPR之风盛行,美、印、巴接连启动数据保护立法
百度公共政策研究院
4+阅读 · 2018年8月29日
文本数据分析(一):基本框架
论智
6+阅读 · 2018年4月9日
用深度学习挖掘海量文本中的宝藏
AI前线
8+阅读 · 2018年3月13日
干货来袭:漫谈概率统计方法与因果关系
数据猿
5+阅读 · 2018年2月23日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
贾跃亭的汽车梦,还轮不到我们嘲笑
虎嗅网
5+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员