Facebook 公司:如何清除 960 万句“脏话”?

2020 年 6 月 11 日 CSDN
作者 | 谭婧
题图 | 视觉中国

来源 | 亲爱的数据(ID: deardata)

互联网上每天产生多少句脏话?这是一个谜。但是,从Facebook公司2020年第一季度的《透明度报告》里,可以窥到一些面貌。

自2018年5月以来, Facebook公司以季度为周期发布报告,解释其辛苦的幕(zi)后(jin)工(tou)作(ru)。

在2020年第一季度,公司更是成功删除960万条“脏话”内容。这是一个创纪录的数字,高于2019年第四季度的570万条,也超过了2019年第三季度的700万条。

2020年第一季度的全球公众卫生事件,人们有不少坏情绪。  

“脏话”是简称,直白的理解是,偏激、仇视性话语(Hate Speech)。民间脏话、方言脏话、描述部分人体器官、人身攻击、种族歧视、性别歧视大抵都包括在内,如果有没有想到的,还望海涵。

每天,打开手机APP,就看见键盘侠“口吐芬芳”,令人大倒胃口。然而,互联网上脏话的量级,人工删除是删不过来的,而且还会误判。

Facebook公司的方法是,用人工智能技术狙击。

  

但凡审查,就会有漏查。Facebook公司《透明度报告》有一个缺陷,就是它没有提漏查的程度。

透明与公开,是与公众沟通的高明手段,蠢货只有闭嘴这一招。Facebook公司虽然没有满分,但也提供了“榜样”。

让我们看到真善美的存在,也要看到假恶丑如何被干掉。

在Facebook公司第一季度删除的960万个帖子中,软件系统检测到88.8%(在用户看到信息并举报之前)。这表明该算法用机器标记了850万个“脏话”帖子,比上一季度的460万个增长了86%。

2020年第一季度,除了病毒蔓延,“脏话”也在蔓延。

Mike Schroepfe,自2013年3月以来一直担任Facebook公司的首席技术官。他借《透明度报告》发布的机会,重点打了一轮人工智能技术的广告,宣传了该公司自然语言处理技术的进步。

他说:“我们的语言模型变得更大,更准确,更细微了。能够发现细致微妙的东西。”

可惜,Schroepfer并没有解释说明这些系统审查的精确程度,只是说Facebook在部署系统之前对其进行了广泛的测试(测试机器误判的情况)。

毕竟一个把正常表达识别错误的机器,也很让用户恼火。回忆诗人顾城的段子。

Mike Schroepfe引用了新报告中的数据,这些数据表明,尽管在最近的25 - 130万条中,用户更经常地对删除内容的决定提出申诉(有可能是骂骂咧咧习惯了,突然被删,很是不服气),但后来执意恢复的帖子数量有所减少(习惯了)。

Facebook的数据并未表明仇恨言论在其算法网络中漏失了多少。该公司的季度报告估计了Facebook规则禁止的某些类型的内容的发生率,但没有“脏话”内容。新闻官宣显示,自2019年夏天以来,暴力帖子数量有所下降。Facebook公司“仍在制定一项全球指标”。

缺失的数据掩盖了社交网络的脏话言论的真实规模。

西雅图大学副教授凯特琳·卡尔森(Caitlin Carlson)说道:“与Facebook庞大的用户网络以及用户对令人不安的内容的观察相比,删除的帖子数目(960万条)看起来太少了。“

教授认为,960万条“脏话”,这一数据还不够真实?

无独有偶,卡教授在2020年1月份发布了一项实验结果。她和一位同事收集了300多个Facebook帖子(样本),这些帖子明显违反了规则,实验人员用服务工具进行了举报。追踪结果显示,最终只有大约一半的帖子被删除。

卡教授这一实验结果,在挑战Facebook。同时,她也发现,同样是“口吐芬芳”,算法对种族歧比在歧视女性方面更为严格。不知道Facebook高管桑德拉看后作何感想。

Facebook表示,对算法找到(标记)的内容与用户报告的处理相同。流程上确定是直接删除,还是警告处理。可能流程上要流转到下一环节,人工审核者。(或者仍由软件判定,视情况而定。)

这时候,要谈谈人工审核员工的苦楚了。

2020年5月,Facebook公司同意支付5200万美元与内容审查团队的员工达成和解。原因很惊人,审查帖子导致他们患上了精神创伤,已获法庭鉴定。外媒The Verge之前详细报道了这一消息。

  

消息原文:“Facebook承认内容审核会给员工造成巨大的损失,这一次,是具有里程碑意义的承认。Facebook同意向现职和前任审核人员支付5200万美元,以补偿他们因工作出现的心理健康问题。


在美国圣马特奥高等法院提出的一项初步和解中,Facebook公司同意支付赔偿金,并在他们工作期间给与更多帮(tong)助(qing)。”

天天看这些脏话的人,都受了内伤。当然,这得算工伤。

  

在“剑桥门”事件后,审核报告是Facebook公司透明度程序的一部分,这一程序还包括聘请一个新的外部专家小组(有没有研究脏话的专家?),该小组有权推翻该公司的审核决定。

讲道理,只有董事会才是公司最高权力机构。

公司协调外部力量参与的力度很大。毕竟罚金有点高,这样下去,扎克伯格就会比亚马逊公司的贝佐斯穷多了。

(“剑桥门”事件,脸书认罚50亿,当然是美金。)

  卡教授继续与Facebook公司正面硬刚(我还挺欣赏她的执着)。她表示,Facebook公司的披露似乎表明该公司可以自我监管,但报告有缺陷。

她说:“要与公司进行对话,我们需要数据。”

当被问及为何不报告“脏话”言论泛滥情况时,Facebook公司发言人指出,该报告的衡量标准“正在缓慢扩展,以覆盖更多的语言和地区,以考虑到文化背景和个别语言的细微差别” 。

定义和检测“脏话”是Facebook和其他平台面临的最大社会和技术挑战之一。

在全球多元文化背景下,即使是人类分辨内容,也是需要花一番功夫的。举个例子,有抖音号教青岛方言表扬人用“赤丝”,请自行体(bai)会(du)一下。

  

自动化是很棘手的,因为人工智能距离人类对文本的理解还有很长的路要走,理解文本和图像共同传达的微妙含义的算法的研究才刚刚开始。

Schroepfer说道:“机器学习算法在语言学研究的帮助下,Facebook已经升级了检测算法。许多高科技公司正在对其处理语言的软件系统(例如谷歌的搜索引擎)进行改造,提高用算法解决诸如回答问题或澄清歧义等语言问题的能力。”

他强调:“(这是)重大改进。”

Schroepfer还明确指出,这些改进并不能使技术达到完美。

  

《透明度报告》透露出,在内容审查和审核方面,Facebook重兵布防人工智能。脏话会影响社交网络的根基,人工智能再昂贵也要用起来。  Facebook表示,它已经创建了超过10000个仇恨语音模因(模因是许多人在互联网上相互发送的东西,如视频,图片或短语)的集合,这些模因结合了图像和文本,并激发新的研究。

该公司将向研究小组提供10万美元的奖金,激励这些研究小组开发出能够最好地发现可恶的模因与良性内容相混合的开源软件。

 

美国还在对社交媒体内容中的“脏话”监管采取放任不管的态度。

德国2017年通过了《网络执法法》(NetzDG),该法要求拥有或超过200万用户的社交媒体公司必须删除或阻止访问报告的内容,因其违反了德国刑法对仇恨言论的限制(《网络实施法》,2017)。

公司必须在收到通知后的24小时内删除“明显的仇恨言论”,否则将面临5000万美元的罚款(Oltermann,2018年)。

值得一提的是,在2019年恐怖主义袭击了新西兰的两座清真寺之后,全球领导人与脸书、谷歌、推特等其他公司高管会面,共同制定了一套名为《基督城召唤》(Christchurch Call)的全球反恐准则,制定针对极端、暴力,以及仇视性言论。

更值得一提的是,美国没有签署承诺。 

远在海外的抖音国际版(Tiktok)也发布了《透明度报告》(2019年12月),只有五页纸。

别问为什么,被逼的。

互联网公司有无可比拟的力量来塑造人类话语世界,偏激言论遍地开花,其处理和删除情况却鲜为人知。《透明度报告》也适用于新浪微博等国内互联网平台公司。敢问一句,现在是什么样的世道?先进技术和生产力都用来和“脏话”做斗争了。

【END】

更多精彩推荐

☞程序员之痛:六次创业五回失败了

Linux 之父怒删工程师提交的补丁,称“太蠢了”网友:怼得好!

张一鸣是如何练就字节跳动的

性能超越最新序列推荐模型,华为诺亚方舟提出记忆增强的图神经网络

DevOps 在移动应用程序开发中扮演什么角色?

稳定币经济:十大稳定币简史

你点的每个“在看”,我都认真当成了喜欢
登录查看更多
0

相关内容

【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
那些竞相将DeepFakes商业化的AI初创公司
AI前线
10+阅读 · 2019年5月4日
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
语言处理想突破,三座大山必须过
THU数据派
6+阅读 · 2018年9月12日
已删除
AI科技评论
4+阅读 · 2018年8月12日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
101+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2019年6月25日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
6+阅读 · 2018年3月27日
VIP会员
相关VIP内容
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
29+阅读 · 2020年4月8日
【2020新书】简明机器学习导论,电子书与500页PPT
专知会员服务
200+阅读 · 2020年2月7日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
相关资讯
那些竞相将DeepFakes商业化的AI初创公司
AI前线
10+阅读 · 2019年5月4日
硬核| 在麦肯锡,行研和数据分析要这么做!
行业研究报告
20+阅读 · 2019年3月26日
语言处理想突破,三座大山必须过
THU数据派
6+阅读 · 2018年9月12日
已删除
AI科技评论
4+阅读 · 2018年8月12日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
相关论文
Directions for Explainable Knowledge-Enabled Systems
Arxiv
26+阅读 · 2020年3月17日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
101+阅读 · 2020年3月4日
Arxiv
15+阅读 · 2019年6月25日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
6+阅读 · 2018年3月27日
Top
微信扫码咨询专知VIP会员