雇水军刷分有效吗？虚假评论的影响研究分析

2019 年 7 月 4 日 PaperWeekly

「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会（SMP）联合发起的论文报道栏目，旨在让国内优质论文得到更多关注和认可。

在线产品评论的价值在于其是否能够客观、真实地体现产品及服务的质量，帮助人们在消费前建立合适的心理预期，并做出更加明智的消费决策。然而，在线点评平台上商家为提高排名，会雇佣水军进行“刷分”，以此来吸引更多潜在的消费者。在线虚假的产品评论是否会对用户后续评价产生影响？

目前关于虚假评论对用户的影响，存在着三种不同的说法：第一，虚假评论会提升后续用户的评分。“领头羊效应”导致后续用户评分提高。第二，虚假评论对后续用户评分没有影响。“群体智慧”理论认为短时间内平均分的提高，会逐渐被“群体智慧”所纠正，最终没有影响。第三，虚假评论会对后续用户产生消极影响。“刷分”导致平均分的提高使得用户对店铺的期望值过高，当期望与实际消费体验相差较大时，用户更有可能发表消极的评论。

为了研究虚假评论究竟是否会对后续评分产生影响，本文选取了“某点评”平台 300 多万条评论数据，识别出其中存在刷分行为的可疑店铺，并识别出对应的“刷分”区间，对比区间前后平均分的差异，并利用建模模拟评分演化。

虚假评论识别

目前识别虚假评论主要采用三类特征数据：评论内容、用户信息、评分序列。在不同的平台上，平台出售的产品的类型、平台所使用的语言都会对评论的文本特征产生影响。因此使用评论的文本特征对于识别虚假评论并不可靠。在线评论平台中，大部分用户的个人信息缺失严重，使用用户信息识别虚假评论的可行性较低。

本文根据店铺的评分序列，采用滑动区间的方式，利用以下特征，一共识别出 48 个可疑店铺。第一，虚假评论通常是在短时间内爆发；第二，为了能够提高产品在推荐系统中的排名，虚假评论通常都是高分评论；第三，高分评论短时间内集中式爆发。

针对这 48 个可疑店铺，我们找到平均分最高的滑动区间，并在这个区间的基础上，向两边进行延伸，最终识别出“刷分”区间。如图 1 所示，ab 图表示的是识别出的可疑店铺以及对应的“刷分”区间。图 cd 为正常店铺的评分序列。

▲ 图1. 店铺店铺实际评分序列

“刷分”区间验证

在识别出“刷分”区间后，根据以下两个方面对识别的准确性进行验证：

1. 虚假评论相对于真实用户，参与评论的次数更少。商家雇佣水军进行刷分，通常情况下所使用的账号较新，存活时间较短（存活时间即注册账号到发表评论的时间间隔）。如图 2 所示，红色点表示 48 个可疑店铺，灰色点表示随机挑选的正常店铺。48 个可疑店铺大部分分布在对角线上方，即“刷分”区间内用户的平均存活时间较短，识别正确。

▲ 图2. 用户存活时间对比

2. “刷分”区间内评论时间间隔较短。如图 3 所示，红色点位于对角线左上方，说明识别出的 48 个可疑店铺中，“刷分”区间内的平均评论时间较短，符合预期结果，识别正确。

▲ 图3. 评论时间间隔对比

虚假评论对后续评分演化模式的影响

我们对比了“刷分”区间前后评论平均分的差异。如图 4 所示，红色点表示前后各取 30 条评论，蓝色点表示前后各取 10 条评论，灰色点为正常店铺。

可以发现，三种颜色均分布在对角线附近，其中红色点相对于蓝色点，更加集中于对角线，说明“刷分”区间前后的评论平均分且随着时间推移差异性越来越小，长时间来看没有明显差异。同时也采用了T检验来验证“刷分”区间前后评论平均分的差异性（短期内 t = -1.09 p > 0.05 ，长期内 t = -1.00 p > 0.05）。这说明无论是从长期来看还是短期来看，“刷分”区间对店铺未来的评分模式并不会产生明显的影响。

▲ 图4. “刷分”区间前后评论平均分对比

后续人工实验

为了进一步验证得到的结论，我们在某点评平台系统中按照“历史点评总数最多”的筛选排序，在排名前 750 个店铺中选出历史评论平均分小于 4 且处于营业状态共 24 个店铺，再从中随机挑选出 10 个店铺进行实验。

整个实验一共 30 名在校学生参与，参与时间从 2018 年 6 月 13 日持续到 6 月 16 日。每个学生每天同时评论不超过 2 个店铺。在每天 11:00 – 14:00 的午饭时间和 17:00 – 21:00 的晚饭时间，参与的学生会在指定的店铺进行人工“刷分”评论。“刷分”完成后，统计各个店铺“刷分”前后各 30 条评论进行对比发现，前后评分没有存在明显差异，与得到的结论相符。

建模分析

用户在评论前都包括两个阶段：购买决策和发表评论。本研究假设购买决策阶段用户主要受到三个因素的影响：1）店铺最新 30 条评论平均分；2）个人对产品的喜好程度 x；3）店铺人均消费水平 p。

店铺评论的平均分越高，用户被吸引到店进行消费的可能性越大。店铺人均消费水平反应了用户的消费成本，当两个店铺的人均消费水平 p 相同时，个体更愿意去平均分越高的店铺进行消费。

个人对产品的喜好程度 x，值越大代表个体去这个店铺消费的意愿越强烈，当两个店铺人均消费水平 p 与平均分两者差值相同时，个体更倾向自身喜好程度 x 更高的店铺。

综上所述，决定个体是否进行消费决策可以用式子表示。其中表示用户 i 在时间 k 时刻对该店铺的喜好程度，p 表示该店铺的历史人均消费水平,表示该店铺最新 30 条评论的平均分。

在发表评论阶段，用户评分高低主要受到个体对产品喜好程度的影响。当用户到店进行消费，并打算发表消费体验评论，用户的评分自身对店铺喜好程度越高则发表的评分越高。发表评论阶段，用户的评分应该满足以下式子：

其中，表示个体 i 在 k 时刻（即喜好程度为）到店铺进行消费后发表评论的评分的条件期望值。这里假设是服从均值为，标准差为的正态分布，即。是店铺历史总评论平均分，表示店铺的真实质量水平。表示个体 i 在 k 时刻对该店铺的喜好程度，均值为，标准差为。p 表示个体对店铺的喜好程度 x 对评分的影响程度。

▲ 图5. 新个体用户评分流程图

模型仿真结果如图 6 所示。由于短时间内高分评论的出现，最近 30 条评论的平均分增大，店铺的人均消费价格 p 保持不变，则减小，因此在消费决策阶段，更多个人喜好程度较低的用户到店进行消费，而这部分用户发表的评论星级较低，因此滑动区间的平均分减小，回归正常水平。

▲ 图6. 模型仿真结果

总结

本文采用滑动区间的方法来识别点评店铺评分序列中存在的虚假评论，即“刷分”区间。这种识别方法稳定可靠，能够切实有效、快速地识别出点评店铺中存在的虚假评论。探究了“刷分”对后续评论演化的短期、长期的影响。

结果表明，“刷分”区间前后的评分在统计学上没有显著差异，“刷分”并不会改变后续评论的演化模式。模型通过模拟用户从接触店铺进行消费决策，到消费完成后发表新评论的过程，“刷分”区间导致短时间内评论平均分的提升，引入了更多不同喜好程度的人群，从而提高了消费人群的多样性，导致后续评论的平均分逐渐下降，纠正由于“刷分”导致的认知偏差。

关于作者

张伦，北京师范大学艺术与传媒学院数字媒体系副教授，中国新闻史学会计算传播学研究委员会理事。主要研究方向为基于数据挖掘方法的新媒体信息传播。于 SSCI、SCI 以及 CSSCI 期刊发表论文 20 余篇；合著出版《社交网络上的计算传播学》（2015 年）。承担了国家社会科学基金青年项目、教育部人文社会科学研究青年基金项目等多项科研项目。