新闻真假难辨?或许AI能借你一双慧眼

2018 年 11 月 15 日 线性资本
小线菌

新闻工作者最近的日子不太好过。世界互联网大会推出的“AI合成主播”受到业内关注,BBC评论“再这样下去我们都要失业了”。当然,除了播音员,新闻届和AI相结合的例子还有很多。今天小线菌想和大家探讨的问题就与AI结合新闻有关:AI能鉴别出假新闻吗?


AI和新闻的碰撞不是头一回了,扎克伯格就曾承诺美国国会说AI将有助于解决假新闻泛滥。新的研究能进一步探索这个问题。


来自麻省理工学院,卡塔尔计算研究所(QCRI)和保加利亚索非亚大学的研究人员测试了900多种可能的变量,用于预测媒体渠道的可靠性——这次测试集可能是有史以来最大的一组。 


然后,研究人员根据变量的不同组合训练了一个机器学习模型,想看哪个会产生最准确的结果。对于标记新闻媒体“低”、“中”或“高”真实性的模型,目前最高准确率能达到65%。


这远不是巨大的成功。但实验揭示了将事实检查外包给机器的重要启示。QCRI的资深科学家、该研究的研究人员之一 Preslav Nakov表示,他乐观地认为假新闻的来源可以通过这种方式被自动发现。


但这并不意味着它会很容易。


疯狂的方法


自2016年美国总统竞选以来,美国的假新闻检测研究呈现爆炸式增长,主要有四种方法:核查个人声明,检测假文章,追踪喷子,以及衡量新闻来源的可靠性。Nakov等人选择了第四种方法,因为它最接近错误信息的根源,关于它的研究也是最少的。


以前的研究试图通过与现在的说法和已被事实确认的说法相匹配或冲突的数量来衡量新闻来源的可靠性。换句话说,一台机器会将新闻机构提出的历史事实性说明与Snopes或PolitiFact等网站的结论进行比较。然而,该机制依赖于人工事实检查和评估过去消息,而不是即刻的现在。等到最新的消息经过人工事实检查后,“已经太晚了”。


为了近乎实时发现虚假的新闻来源,Nakov和他的合作者使用可以独立于人工事实检查者的变量来训练他们的系统。这其中包括对内容的分析,如标题的句子结构和文章中词汇的多样性;整体网站指标,如URL结构和网站流量;消息产生影响的方法,如可能的社交媒体参与和维基百科页面。


为了选择变量,研究人员依赖之前的研究 (比如过去研究表明假新闻文章倾向于重复的单词选择)以及新的假设。


通过测试不同的变量组合,研究人员能够确定新闻来源可靠性的最佳预测者。例如,消息是否存在维基百科页面具有超大的预测能力;相比之下,消息的流量却没有这种能力。这能帮助研究人员确定未来可以探索的其他变量。


数据的匮乏


对于大多数机器学习任务而言,标记训练数据(training data)足够简单。如果要构建一个检测有关“体育”内容文章的系统,我们可以将文章简单地标记为与主题相关或不相关。然后把数据集提供给一台机器,它就可以了解体育文章的特征。


但标记高或低事实性的媒体消息要麻烦得多。这必须由遵循严格方法的专业记者来完成,所以很耗时。因此,建立一个坚实的训练数据集是一项挑战,这也是研究的模型准确性如此之低的原因之一。“提高准确性最显著的方法是获得更多的训练数据”,Nakov说。


目前,为研究提供“基本事实”的组织Media Bias Fact Check已经评估了2,500个媒体来源,这对于机器学习而言还很少。但Nakov说他们的数据库正在快速增长。除了获得更多的训练数据外,研究人员还希望通过更多变量来改善模型,这里面有些变量描述了网站的结构,是否有联系信息,以及其发布和删除内容的模式。 


尽管能够为读者提供了每个报道和来源共享的可信度的重要线索,他们还处于建立这样一个新闻聚合平台的早期阶段。


Nakov认为,如果像Facebook和Twitter这样的平台认真付出努力,这种技术可以相对快速地解决假新闻泛滥的现状。“这就像打击垃圾邮件一样”,他写道,“我们永远不能杜绝假新闻,但可以控制它们




文章来源:MIT Technology Review

作者:Karen Hao



五分钟,你可以掌握一个科学知识。

五分钟,你可以了解一个科技热点。

五分钟,你可以近观一个极客故事。

精确解构科技知识,个性表达投融观点。

欢迎关注线性资本。

Linear Path, Nonlinear Growth。



登录查看更多
1

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
146+阅读 · 2020年6月15日
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
49+阅读 · 2020年4月27日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
164+阅读 · 2020年2月27日
文章太长不想看?ML 文本自动摘要了解一下
机器之心
8+阅读 · 2019年7月8日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
吴恩达“官宣”荣升准爸爸~
AI100
4+阅读 · 2019年1月18日
刘强东人设崩了,京东没崩
PingWest品玩
6+阅读 · 2018年11月20日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
关注人工智能:人工智能+ 金融添双翼
专知
5+阅读 · 2018年2月5日
李开复为何说年底人工智能泡沫要破?
数据猿
4+阅读 · 2018年2月5日
大咖来信 | 李开复:北美AI时局图
量子位
4+阅读 · 2017年12月11日
盘点2017年度AI领域大事件
大数据文摘
5+阅读 · 2017年12月9日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
5+阅读 · 2018年5月22日
VIP会员
相关VIP内容
专知会员服务
146+阅读 · 2020年6月15日
【MIT】Yufei Zhao《图论与加法组合学》,177页pdf
专知会员服务
49+阅读 · 2020年4月27日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
164+阅读 · 2020年2月27日
相关资讯
文章太长不想看?ML 文本自动摘要了解一下
机器之心
8+阅读 · 2019年7月8日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
吴恩达“官宣”荣升准爸爸~
AI100
4+阅读 · 2019年1月18日
刘强东人设崩了,京东没崩
PingWest品玩
6+阅读 · 2018年11月20日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
关注人工智能:人工智能+ 金融添双翼
专知
5+阅读 · 2018年2月5日
李开复为何说年底人工智能泡沫要破?
数据猿
4+阅读 · 2018年2月5日
大咖来信 | 李开复:北美AI时局图
量子位
4+阅读 · 2017年12月11日
盘点2017年度AI领域大事件
大数据文摘
5+阅读 · 2017年12月9日
Top
微信扫码咨询专知VIP会员