论智
编译 | Bing
来源 | Medium
编者按:近日,数据科学家Jeff Kao在Medium上公布了自己的研究,用自然语言处理技术分析了2017年4月到10月在美国联邦通信委员会(FCC)下关于“废除网络中立”这一事件的评论,结果让人吃惊。以下是论智对其博客的编译,本文仅代表作者观点。
近日,纽约首席法官埃里克·施耐德曼(Eric Schneiderman)公开质疑成百上千的美国人的身份信息可能被盗用,操纵者以他们的身份发送垃圾评论,支持“废除网络中立(Repeal Net Neutrality)”的决定。经过研究后,我发现了至少有130万条支持废除该法案的评论都是伪造的,这一数字还有可能更多。事实上,在这一事件中,支持“废除网络中立”的假评论总数有几百万。在这篇文章中,我将以其中的一个虚假信息发布机器人为例,证明身边潜伏着许多虚假的垃圾信息机器人,并看清公众在这个事件中真正的立场是什么。
主要发现有三点:
一个支持“废除网络中立”的社交机器人利用邮件合并的方式将130万条评论伪装成真实的网友意见。
除此之外还有好几种机器人在其系统中添加数以百万计的“支持废除”的评论。
很有可能99%以上的真实评论都是支持“网络中立”的。
评论分类
许多人发现自己的身份信息被盗用后用于FCC下面的留言,但FCC却否认这一说法,所以评论的数据将是重复和混乱的。如果不想用“大数据”的相关工具进行分析,那么就要将超过2200万条评论和大于60GB的文本数据和元数据分割成小片段。
我把重复的评论汇集在一起,最终筛选出2955182条不同的评论,并且标注它们每条重复的次数。然后,我将这些评论映射到语义空间向量中,并根据评论的意思运行一些聚类算法。这种方法最终将评论分成了大大小小不同的150类文本。
在对评论进行分类并且删除重复内容后,我发现,在向FCC提交的2200多万评论中,只有不到80万的真实评论,仅占评论总数的3%~4%。而虚假评论的总数达到了1700万条。以下是重复频率排名前20的假评论:
所以,我们怎么才能知道哪些是来自真实用户,哪些是出自机器人之手呢?
识别邮件合并的垃圾评论
排名第一、同时也是数量最多的支持废除“网络中立”的评论组特征非常明显。与其他包含大量重复评论的组不同,这一组里每条评论的语言都是独一无二的。但是每条评论的语调、用词和意义都非常相似。而且语言也很夸张。我利用正则表达式来分析该组的评论:
假评论中的每个句子看上去都像是电脑程序自动生成的,但是通过邮件合并替换掉同义词后,这条评论看起来就很“真”了。最后表明,这样的句子总共有130万条。
如上图所示,只要将5条评论放在一起比较,就会发现它们的相似度极高。但是当评论总量达到2200万条时,评论之间的措辞往往差异很大,这样的联系就不易察觉。语义聚类技术(semantic clustering techniques),而非通常的字符串匹配技术,在抓取信息时功不可没。
最后,当把这些垃圾评论聚集在一起时,结果非常令人吃惊,因为这些正是你会在支持者口中听到的政治言论或语言类型,与近期FCC委员会的发言十分接近。
支持废除的言论重复性更高
但是,仅仅因为数量最多的支持废除评论是电脑程序所为,似乎并不能证明还有更多的机器人“水军”。不过事实证明,位列第二和第三名的两个群组,已经在之前的报告中证实是虚假评论了。
如果要证明每一组都是机器人评论的话,工作量就太大了。但是,我们已经基本能够了解这些评论是什么风格了。下图是2200万评论中排名前300的评论组,总量达2100万。
在表格中,我们可以看到支持废除的评论很多都是重复的(深红色),总量大约有860万条。即使在支持的评论中有25%都是垃圾评论,那么也会生成超过200万条虚假评论,并且每条评论都留有电子邮箱地址。下一步应该调查用于提交这些评论的电子邮件地址。
另一方面,呼吁保留网络中立的评论言语更随意、更自然(浅绿色),长尾词的数量也更多。如果两派评论的类型、提交方式和传播方式相同,那么条形图中深色和浅色、红色和绿色的占比应该是大致均匀的。这显然不是。
99%的真实评论是反对“废除网络中立”的
我们可以从原始数据中选出一个有代表性的样本,从中取出总体均值的近似值和置信区间。在随机抽取1000条评论并对其研究之后,我只能找到三条明显支持“废除网络中立”的言论。所以我得出了有99%的人希望保留网络中立的结论。但是由于这个数字太过于接近100%,所以置信区间超过了100%。至少我们可以认为大多说网友是要求保留网络中立的。
以下是我找出的一条真实评论,看看这一决定会对他产生怎样的结果吧:
我今年82了,身有残疾,出不了家门,但我并不觉得孤单,因为我有免费的互联网。我能在世界遨游,可以用Facebook与亲朋好友保持联系,能在Etsy上卖我的作品。如果你们(FCC)要取消网络中立,我可能就负担不起ISP了,我将无法上网!只有FCC能保护我和像我一样的其他人。
结语
公众的参与是实现民主的基础。当真实的呼吁“保留网络中立”的声音被一大堆垃圾评论淹没,是非常可怕的。现在我们正渐渐对政府失去信心,如果这样下去,我担心当每个联邦监管机构向公众征询意见时,都会被虚假声音占据。
面对如此多的反对之声,FCC不能仅仅因为一些违规行为,或是公众舆论没有法律效力而无视公众意见,草草将“网络中立”从草案中抹掉。