本文转自微信公众号:寻找中国创客(ID:xjbmaker),作者: 黎明。
继世界杯洗脑广告刷屏后不久,在线旅游网站马蜂窝又一次成功刷屏。只不过这一次,它好像遇到了一点“小麻烦”。
昨天,一篇名为《估值 175 亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章在网络上广泛流传。文章指出,马蜂窝大量点评数据造假,抄袭同行的内容,僵尸和水军泛滥。
文章引用了一家名为乎睿数据团队的数据分析结果,声称马蜂窝的2100万条用户评论中有1800万条是从携程、美团等竞品网站抄袭而来。他们在马蜂窝发现了7454个抄袭账号,合计抄袭572万条餐饮点评、1221万条酒店点评,占到马蜂窝官网声称总点评数的85%。
该文在10月20日晚间发布,文章末尾称将在21日继续爆料针对游记和问答的分析。21日晚间,爆料人梓泉发布《马蜂窝开始毁灭证据了,但这水平真的哈哈哈哈哈哈哈哈》一文,并公开了完整的分析报告。
爆料人梓泉向寻找中国创客表示,20日的文章发布后就收到了马蜂窝的投诉,但截至22日凌晨12:30,马蜂窝未直接联系他。
针对质疑,22日早上马蜂窝发表声明,称对全站游记、攻略、嗡嗡(旅行故事)、问答、点评等数据进行了核查,并对涉嫌虚假的信息展开查处。自媒体文章所述的马蜂窝用户数量,与事实和第三方机构数据都严重不符。
马蜂窝还表示,针对自媒体文中歪曲事实的言论,和已被查证的有组织攻击行为,将采取法律段维护自身权益。
两个月前有外媒报道,据知情人士透露,马蜂窝正计划进行新一轮3亿美元的融资,并已经与潜在投资者进行了至少几个月的谈判。
内容,一直是马蜂窝区别于同行最大的竞争优势之一,而本次的公开指控,可以说直指其要害。
实际上,创业项目的数据造假早已不是新鲜事。马蜂窝CEO陈罡曾在2014年公开炮轰去哪儿网通过虚假评论造假。
被指控85%点评数据造假,马蜂窝回应将采取法律手段
10月20日晚间,名为“小声比比”的微信公众号发布了上述指控马蜂窝的文章,通过和其他平台的用户点评数据进行对比,证明马蜂窝的点评数据造假,随后文章开始在社交平台发酵。
文章指出,马蜂窝点评中出现了很多自相矛盾的情况,比如同一个用户用不同性别点评,以及同一时间在不同地点点评。另外,部分点评的内容中还保留着“大众点评”、“携程”、“美团”等字样,部分内容甚至是翻译自其他类似Yelp的英文平台,“简明英汉词典”的字样都没有去除,粗暴搬运的痕迹明显。除此之外,点评中还有一些明显错误的内容,文章称是马蜂窝不慎把不该抓取的内容抓了进来。
记者21号上午10点在马蜂窝网站根据文中演示的方法,在网站搜索框搜索“简明英汉词典”,没有搜索到有“简明英汉词典”字样的点评。爆料人梓泉告诉记者,这些点评已经在21号早上八点四十分左右被马蜂窝删掉了。
随后记者在谷歌搜索“马蜂窝简明英汉词典”,出现了三条带有“来自简明英汉词典”的马蜂窝点评。
同时,记者在马蜂窝官网点进文中被指控涉及大量抄袭点评的账号“问答小班长10号”,其主页的点评数量显示为零条。梓泉称这是因为马蜂窝已经清空了相关数据。另外,文中涉及的“小班长1号”、“小班长7号”等类似账号在点评一栏均显示为零条。
根据文中提供的马蜂窝抄袭自美团等平台的点评截图,记者21号上午11点分别在上述提到的九个商家点评中进行查看,在“花串串财富广场店”的点评区中,发现一条显示着“就在大众上随便找了一家”的字样;在“宝贝饭堂”点评区中,有一条写着“第二天的午餐美团上点”。其他商家的评论区未发现文章截图显示的情况。
另外,文章称还发现在马蜂窝的抽奖活动中,部分抄袭账号多次获奖,并且有获奖者为马蜂窝内部员工。21日晚间梓泉发布的第二篇文章,则通过大量截图和数据对比,指控马蜂窝在游记和问答也存在大量机器人和水军。
22日早间,马蜂窝针对质疑发表声明称,自媒体文章所述的马蜂窝用户数量,与事实和第三方机构数据都严重不符。
马蜂窝表示,马蜂窝是旅游平台而非本地生活服务网站,用户分享的主要载体为游记、攻略与问答,马蜂窝的 UGC 内容数据中,游记和攻略占比为 78.91%,嗡嗡(旅行故事)占比 7.92%,问答占比 10.26%。点评内容在马蜂窝整体数据量中仅占比 2.91%,涉嫌虚假点评的账号数据在整体用户中的占比更是微乎其微,马蜂窝已对这部分账号进行清理。
马蜂窝称,餐饮点评不是马蜂窝的内容核心,且部分点评来自游记、问答等内容的提取。自媒体的解读存在明显的误导倾向。马蜂窝平均每周处理 26000 条违规广告信息,查封 15000 个违规账号。自媒体将不法商家的违规行为归结于马蜂窝,与事实严重不符。
马蜂窝还表示,针对自媒体文中歪曲事实的言论,和已被查证的有组织攻击行为,将采取法律段维护自身权益。
业内人士:爬虫刷评行为很常见
一位从事移动应用开发的创业者向寻找中国创客表示,从其他网站或APP上抓取点评数据非常简单,在技术上没有任何难度,随便一个爬虫工程师就可以做到。“不涉及到数据库,直接爬页面就行了。”
“可以批量处理,通常是机器+人工编辑。”上述创业者进一步补充道。
多位互联网业内人士向记者透露,互联网公司利用爬虫技术,从其他平台抓取数据的行为很常见。
2014年,携程网和去哪儿尚未合并,蚂蜂窝CEO陈罡在微博公开炮轰去哪儿通过虚假评论造假,认为去哪儿的刷评行为已经动摇到了行业诚信的根基,但去哪儿未对此进行公开回应。
某大型互联网公司运营总监表示,不知道马蜂窝被指控的刷评行为是否属实,但业内出现刷评行为的根本原因是出于竞争压力,是几家在线旅游网站出于对UGC(用户生成内容)市场的争夺,以及维护平台活跃度的需要。
一位从事搜索引擎开发的创业者表示,从其他平台抓数据的目的,就是为了制造流量很大的假象,但爬虫抓数据的行为很容易识别,就看资本方尽调的时候是否严格。
在技术手段下,刷单、刷点评、从其他平台抓取数据,已经不具备太高技术门槛。而那些被“抄袭”的公司,实际上也早已想好了应对之策。
文章就指出,马蜂窝在抓取其他网站点评内容的过程中,就遭遇了反爬虫手段的回击,被利用为对方推广,还有的技术团队在内容中“投毒”,导致马蜂窝不慎抓取了不该抓取的内容。
上述从事移动应用开发的创业者透露,“现在有很多第三方团队在做网络监控,通过监测出一些公司的数据被抓取,然后顺势提供反爬虫服务。”而此次揭发爬数据的行为,背后的技术公司可以得到大公司的关注,“这样他们的业务就可以扩张了,就像是一个事件营销。”
上述指控马蜂窝文章的作者署名为“梓泉&乎睿数据”,文章最后一句“感谢为本文贡献核心数据的乎睿数据团队”,并附上了对乎睿数据的介绍。记者进入乎睿数据官网,发现在网站“解决方案”一栏,第一项服务就是舆情预警。
起个大早,马蜂窝能否赶上晚集?
马蜂窝是一家老牌的在线旅游网站,成立于2006年。
创始人陈罡和吕刚是前新浪和搜狐员工,出于对旅游的热爱创办了马蜂窝,成立之初定位为一个爱好者社区,四年后才开始商业化运作。
在OTA(在线旅行社)激烈的市场竞争中,蚂蜂窝没有将携程的在线售票模式作为核心,而是全力打造UGC形式的旅游社区。在这样的模式下,内容成了其发展的关键。
虽然避开了与携程的直接竞争,社区模式的赛道依然不乏对手。在移动互联网兴起之后,不仅携程成立了独立的攻略社区事业部,还兴起了无数个游记攻略创业公司:在路上、面包旅行、蝉游记等。但商业化依旧是它们面临的首要难题,在路上和蝉游记首先退出市场,面包旅行也处于艰难的转型中。
蚂蜂窝完成1.33亿美元D轮融资后,提出三年后成为中国最大旅游流量平台的愿景。陈罡和吕刚在内部信中提到,马蜂窝与同行的不同之处在于,开创了“内容+交易”模式,并称这“是当下中国旅游业最先进的生产力”。
在“内容+交易”模式下,凭借内容入口优势,马蜂窝通过结构化数据,识别出用户的需求喜好和行为特征,从而更好地指导和旅行机构的合作,促进交易的产生。这是马蜂窝近两年在酒店、交通、当地玩乐等自由行产品交易上实现成倍增长的原因所在。
但有业内人士质疑,马蜂窝以社区起家,应该走小众清新路线,聚焦特定人群,做小而美的生意。一个老牌旅游网站,抢得先机却更新缓慢,已经失去了风向标的作用。
但好像是为了证明这种论调的错误,马蜂窝在资本市场上的步子越迈越大。从2011年的A轮融资开始,不论市场行情如何,马蜂窝始终保持着每两年融一轮资的节奏。
马蜂窝在2011年10月获得今日资本500万美元A轮融资和200万美元无息贷款,2013年4月获得启明创投领投的1500万美元B轮融资,2015年2月获得高瓴资本、Coatue、CoBuilder、启明创投的C轮融资,2017年12月获得由鸥翎投资、美国泛大西洋资本集团、淡马锡、元钛长青基金、厚朴基金共同投资,今日资本、启明资本、高瓴资本继续跟投的1.33亿美元D轮融资。
D轮融资后,马蜂窝就启动了新一轮品牌换新升级,进一步强化其集数据处理及交易服务于一体的行业形象。
随后一向低调的马蜂窝在2018年世界杯上,花费1.65亿元成为央视世界杯转播的赞助商,采用“央视+明星+砸钱+洗脑”的传统套路,凭借一句“旅游之前,先上马蜂窝”的广告词,让品牌在短时间内获得了大量曝光,同时也引发了大量吐槽。
根据马蜂窝官网数据,马蜂窝服务全球200多个国家和地区的1亿名旅行者,拥有超过2100万条真实点评。以真实点评为代表的数据,是马蜂窝目前对外展示的核心竞争力之一。
此次乎睿数据团队的公开指控直击马蜂窝要害,无论指控是否属实,都已经在事实上对马蜂窝造成了一定冲击。
本文转自微信公众号:寻找中国创客(ID:xjbmaker),作者: 黎明。
*文章为作者独立观点,不代表虎嗅网立场
虎Cares
一件护住你的上半身,共同抵御资本寒冬
比抱着羊驼还温暖且有趣的重磅「职场杀焦帽衫」
五款在售,👇戳小程序开抢👇👇