NLP分析:支持“废除网络中立”评论或造假,数量超百万

2017 年 11 月 24 日 论智 Bing

论智

编译 | Bing

来源 | Medium

编者按:近日,数据科学家Jeff Kao在Medium上公布了自己的研究,用自然语言处理技术分析了2017年4月到10月在美国联邦通信委员会(FCC)下关于“废除网络中立”这一事件的评论,结果让人吃惊。以下是论智对其博客的编译,本文仅代表作者观点。

近日,纽约首席法官埃里克·施耐德曼(Eric Schneiderman)公开质疑成百上千的美国人的身份信息可能被盗用,操纵者以他们的身份发送垃圾评论,支持“废除网络中立(Repeal Net Neutrality)”的决定。经过研究后,我发现了至少有130万条支持废除该法案的评论都是伪造的,这一数字还有可能更多。事实上,在这一事件中,支持“废除网络中立”的假评论总数有几百万。在这篇文章中,我将以其中的一个虚假信息发布机器人为例,证明身边潜伏着许多虚假的垃圾信息机器人,并看清公众在这个事件中真正的立场是什么。

主要发现有三点:

  1. 一个支持“废除网络中立”的社交机器人利用邮件合并的方式将130万条评论伪装成真实的网友意见。

  2. 除此之外还有好几种机器人在其系统中添加数以百万计的“支持废除”的评论。

  3. 很有可能99%以上的真实评论都是支持“网络中立”的。

评论分类

许多人发现自己的身份信息被盗用后用于FCC下面的留言,但FCC却否认这一说法,所以评论的数据将是重复和混乱的。如果不想用“大数据”的相关工具进行分析,那么就要将超过2200万条评论和大于60GB的文本数据和元数据分割成小片段。

我把重复的评论汇集在一起,最终筛选出2955182条不同的评论,并且标注它们每条重复的次数。然后,我将这些评论映射到语义空间向量中,并根据评论的意思运行一些聚类算法。这种方法最终将评论分成了大大小小不同的150类文本。

在对评论进行分类并且删除重复内容后,我发现,在向FCC提交的2200多万评论中,只有不到80万的真实评论,仅占评论总数的3%~4%。而虚假评论的总数达到了1700万条。以下是重复频率排名前20的假评论:

所以,我们怎么才能知道哪些是来自真实用户,哪些是出自机器人之手呢?

识别邮件合并的垃圾评论

排名第一、同时也是数量最多的支持废除“网络中立”的评论组特征非常明显。与其他包含大量重复评论的组不同,这一组里每条评论的语言都是独一无二的。但是每条评论的语调、用词和意义都非常相似。而且语言也很夸张。我利用正则表达式来分析该组的评论:

假评论中的每个句子看上去都像是电脑程序自动生成的,但是通过邮件合并替换掉同义词后,这条评论看起来就很“真”了。最后表明,这样的句子总共有130万条。

如上图所示,只要将5条评论放在一起比较,就会发现它们的相似度极高。但是当评论总量达到2200万条时,评论之间的措辞往往差异很大,这样的联系就不易察觉。语义聚类技术(semantic clustering techniques),而非通常的字符串匹配技术,在抓取信息时功不可没。

最后,当把这些垃圾评论聚集在一起时,结果非常令人吃惊,因为这些正是你会在支持者口中听到的政治言论或语言类型,与近期FCC委员会的发言十分接近。

支持废除的言论重复性更高

但是,仅仅因为数量最多的支持废除评论是电脑程序所为,似乎并不能证明还有更多的机器人“水军”。不过事实证明,位列第二和第三名的两个群组,已经在之前的报告中证实是虚假评论了。

如果要证明每一组都是机器人评论的话,工作量就太大了。但是,我们已经基本能够了解这些评论是什么风格了。下图是2200万评论中排名前300的评论组,总量达2100万。

在表格中,我们可以看到支持废除的评论很多都是重复的(深红色),总量大约有860万条。即使在支持的评论中有25%都是垃圾评论,那么也会生成超过200万条虚假评论,并且每条评论都留有电子邮箱地址。下一步应该调查用于提交这些评论的电子邮件地址。

另一方面,呼吁保留网络中立的评论言语更随意、更自然(浅绿色),长尾词的数量也更多。如果两派评论的类型、提交方式和传播方式相同,那么条形图中深色和浅色、红色和绿色的占比应该是大致均匀的。这显然不是。

99%的真实评论是反对“废除网络中立”的

我们可以从原始数据中选出一个有代表性的样本,从中取出总体均值的近似值和置信区间。在随机抽取1000条评论并对其研究之后,我只能找到三条明显支持“废除网络中立”的言论。所以我得出了有99%的人希望保留网络中立的结论。但是由于这个数字太过于接近100%,所以置信区间超过了100%。至少我们可以认为大多说网友是要求保留网络中立的。

以下是我找出的一条真实评论,看看这一决定会对他产生怎样的结果吧:

我今年82了,身有残疾,出不了家门,但我并不觉得孤单,因为我有免费的互联网。我能在世界遨游,可以用Facebook与亲朋好友保持联系,能在Etsy上卖我的作品。如果你们(FCC)要取消网络中立,我可能就负担不起ISP了,我将无法上网!只有FCC能保护我和像我一样的其他人。

结语

公众的参与是实现民主的基础。当真实的呼吁“保留网络中立”的声音被一大堆垃圾评论淹没,是非常可怕的。现在我们正渐渐对政府失去信心,如果这样下去,我担心当每个联邦监管机构向公众征询意见时,都会被虚假声音占据。

面对如此多的反对之声,FCC不能仅仅因为一些违规行为,或是公众舆论没有法律效力而无视公众意见,草草将“网络中立”从草案中抹掉。

登录查看更多
2

相关内容

【KDD2020-清华大学】图对比编码的图神经网络预训练
专知会员服务
44+阅读 · 2020年6月18日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
【论文扩展】欧洲语言网格:概述
专知会员服务
6+阅读 · 2020年3月31日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
NLP的这一年:深度学习或成主角
论智
3+阅读 · 2017年12月14日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
10+阅读 · 2019年2月19日
Arxiv
6+阅读 · 2018年3月29日
VIP会员
相关资讯
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
深度学习在金融文本情感分类中的应用
AI前线
36+阅读 · 2019年1月12日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
干货 | 100+个NLP数据集大放送,再不愁数据!
数据派THU
11+阅读 · 2018年5月2日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
NLP的这一年:深度学习或成主角
论智
3+阅读 · 2017年12月14日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
Top
微信扫码咨询专知VIP会员