NLP分析：支持“废除网络中立”评论或造假，数量超百万

2017 年 11 月 24 日 论智 Bing

论智

编译 | Bing

来源 | Medium

编者按：近日，数据科学家Jeff Kao在Medium上公布了自己的研究，用自然语言处理技术分析了2017年4月到10月在美国联邦通信委员会（FCC）下关于“废除网络中立”这一事件的评论，结果让人吃惊。以下是论智对其博客的编译，本文仅代表作者观点。

近日，纽约首席法官埃里克·施耐德曼（Eric Schneiderman）公开质疑成百上千的美国人的身份信息可能被盗用，操纵者以他们的身份发送垃圾评论，支持“废除网络中立（Repeal Net Neutrality）”的决定。经过研究后，我发现了至少有130万条支持废除该法案的评论都是伪造的，这一数字还有可能更多。事实上，在这一事件中，支持“废除网络中立”的假评论总数有几百万。在这篇文章中，我将以其中的一个虚假信息发布机器人为例，证明身边潜伏着许多虚假的垃圾信息机器人，并看清公众在这个事件中真正的立场是什么。

主要发现有三点：

一个支持“废除网络中立”的社交机器人利用邮件合并的方式将130万条评论伪装成真实的网友意见。
除此之外还有好几种机器人在其系统中添加数以百万计的“支持废除”的评论。
很有可能99%以上的真实评论都是支持“网络中立”的。

评论分类

许多人发现自己的身份信息被盗用后用于FCC下面的留言，但FCC却否认这一说法，所以评论的数据将是重复和混乱的。如果不想用“大数据”的相关工具进行分析，那么就要将超过2200万条评论和大于60GB的文本数据和元数据分割成小片段。

我把重复的评论汇集在一起，最终筛选出2955182条不同的评论，并且标注它们每条重复的次数。然后，我将这些评论映射到语义空间向量中，并根据评论的意思运行一些聚类算法。这种方法最终将评论分成了大大小小不同的150类文本。

在对评论进行分类并且删除重复内容后，我发现，在向FCC提交的2200多万评论中，只有不到80万的真实评论，仅占评论总数的3%~4%。而虚假评论的总数达到了1700万条。以下是重复频率排名前20的假评论：

所以，我们怎么才能知道哪些是来自真实用户，哪些是出自机器人之手呢？

识别邮件合并的垃圾评论

排名第一、同时也是数量最多的支持废除“网络中立”的评论组特征非常明显。与其他包含大量重复评论的组不同，这一组里每条评论的语言都是独一无二的。但是每条评论的语调、用词和意义都非常相似。而且语言也很夸张。我利用正则表达式来分析该组的评论：

假评论中的每个句子看上去都像是电脑程序自动生成的，但是通过邮件合并替换掉同义词后，这条评论看起来就很“真”了。最后表明，这样的句子总共有130万条。

如上图所示，只要将5条评论放在一起比较，就会发现它们的相似度极高。但是当评论总量达到2200万条时，评论之间的措辞往往差异很大，这样的联系就不易察觉。语义聚类技术（semantic clustering techniques），而非通常的字符串匹配技术，在抓取信息时功不可没。

最后，当把这些垃圾评论聚集在一起时，结果非常令人吃惊，因为这些正是你会在支持者口中听到的政治言论或语言类型，与近期FCC委员会的发言十分接近。

支持废除的言论重复性更高

但是，仅仅因为数量最多的支持废除评论是电脑程序所为，似乎并不能证明还有更多的机器人“水军”。不过事实证明，位列第二和第三名的两个群组，已经在之前的报告中证实是虚假评论了。

如果要证明每一组都是机器人评论的话，工作量就太大了。但是，我们已经基本能够了解这些评论是什么风格了。下图是2200万评论中排名前300的评论组，总量达2100万。

在表格中，我们可以看到支持废除的评论很多都是重复的（深红色），总量大约有860万条。即使在支持的评论中有25%都是垃圾评论，那么也会生成超过200万条虚假评论，并且每条评论都留有电子邮箱地址。下一步应该调查用于提交这些评论的电子邮件地址。

另一方面，呼吁保留网络中立的评论言语更随意、更自然（浅绿色），长尾词的数量也更多。如果两派评论的类型、提交方式和传播方式相同，那么条形图中深色和浅色、红色和绿色的占比应该是大致均匀的。这显然不是。

99%的真实评论是反对“废除网络中立”的

我们可以从原始数据中选出一个有代表性的样本，从中取出总体均值的近似值和置信区间。在随机抽取1000条评论并对其研究之后，我只能找到三条明显支持“废除网络中立”的言论。所以我得出了有99%的人希望保留网络中立的结论。但是由于这个数字太过于接近100%，所以置信区间超过了100%。至少我们可以认为大多说网友是要求保留网络中立的。

以下是我找出的一条真实评论，看看这一决定会对他产生怎样的结果吧：