新闻工作者最近的日子不太好过。世界互联网大会推出的“AI合成主播”受到业内关注,BBC评论“再这样下去我们都要失业了”。当然,除了播音员,新闻届和AI相结合的例子还有很多。今天小线菌想和大家探讨的问题就与AI结合新闻有关:AI能鉴别出假新闻吗?
AI和新闻的碰撞不是头一回了,扎克伯格就曾承诺美国国会说AI将有助于解决假新闻泛滥。新的研究能进一步探索这个问题。
来自麻省理工学院,卡塔尔计算研究所(QCRI)和保加利亚索非亚大学的研究人员测试了900多种可能的变量,用于预测媒体渠道的可靠性——这次测试集可能是有史以来最大的一组。
然后,研究人员根据变量的不同组合训练了一个机器学习模型,想看哪个会产生最准确的结果。对于标记新闻媒体“低”、“中”或“高”真实性的模型,目前最高准确率能达到65%。
这远不是巨大的成功。但实验揭示了将事实检查外包给机器的重要启示。QCRI的资深科学家、该研究的研究人员之一 Preslav Nakov表示,他乐观地认为假新闻的来源可以通过这种方式被自动发现。
但这并不意味着它会很容易。
疯狂的方法
自2016年美国总统竞选以来,美国的假新闻检测研究呈现爆炸式增长,主要有四种方法:核查个人声明,检测假文章,追踪喷子,以及衡量新闻来源的可靠性。Nakov等人选择了第四种方法,因为它最接近错误信息的根源,关于它的研究也是最少的。
以前的研究试图通过与现在的说法和已被事实确认的说法相匹配或冲突的数量来衡量新闻来源的可靠性。换句话说,一台机器会将新闻机构提出的历史事实性说明与Snopes或PolitiFact等网站的结论进行比较。然而,该机制依赖于人工事实检查和评估过去消息,而不是即刻的现在。等到最新的消息经过人工事实检查后,“已经太晚了”。
为了近乎实时发现虚假的新闻来源,Nakov和他的合作者使用可以独立于人工事实检查者的变量来训练他们的系统。这其中包括对内容的分析,如标题的句子结构和文章中词汇的多样性;整体网站指标,如URL结构和网站流量;消息产生影响的方法,如可能的社交媒体参与和维基百科页面。
为了选择变量,研究人员依赖之前的研究 (比如过去研究表明假新闻文章倾向于重复的单词选择)以及新的假设。
通过测试不同的变量组合,研究人员能够确定新闻来源可靠性的最佳预测者。例如,消息是否存在维基百科页面具有超大的预测能力;相比之下,消息的流量却没有这种能力。这能帮助研究人员确定未来可以探索的其他变量。
数据的匮乏
对于大多数机器学习任务而言,标记训练数据(training data)足够简单。如果要构建一个检测有关“体育”内容文章的系统,我们可以将文章简单地标记为与主题相关或不相关。然后把数据集提供给一台机器,它就可以了解体育文章的特征。
但标记高或低事实性的媒体消息要麻烦得多。这必须由遵循严格方法的专业记者来完成,所以很耗时。因此,建立一个坚实的训练数据集是一项挑战,这也是研究的模型准确性如此之低的原因之一。“提高准确性最显著的方法是获得更多的训练数据”,Nakov说。
目前,为研究提供“基本事实”的组织Media Bias Fact Check已经评估了2,500个媒体来源,这对于机器学习而言还很少。但Nakov说他们的数据库正在快速增长。除了获得更多的训练数据外,研究人员还希望通过更多变量来改善模型,这里面有些变量描述了网站的结构,是否有联系信息,以及其发布和删除内容的模式。
尽管能够为读者提供了每个报道和来源共享的可信度的重要线索,他们还处于建立这样一个新闻聚合平台的早期阶段。
Nakov认为,如果像Facebook和Twitter这样的平台认真付出努力,这种技术可以相对快速地解决假新闻泛滥的现状。“这就像打击垃圾邮件一样”,他写道,“我们永远不能杜绝假新闻,但可以控制它们。”
文章来源:MIT Technology Review
作者:Karen Hao
五分钟,你可以掌握一个科学知识。
五分钟,你可以了解一个科技热点。
五分钟,你可以近观一个极客故事。
精确解构科技知识,个性表达投融观点。
欢迎关注线性资本。
Linear Path, Nonlinear Growth。