会员服务 ·

一文看懂虚假新闻检测（附数据集 & 论文推荐）

2019 年 2 月 19 日 PaperWeekly

作者丨孙子荀

单位丨腾讯科技高级研究员

研究方向丨多模态内容质量

本人过去几年一直从事内容质量方面的算法工作，近期出于兴趣对假新闻这个问题做了一些调研，简单总结一下提供读者参考。

在某种程度上假新闻的是一个微观领域问题，它和谣言分类，事实判断，标题党检测，垃圾内容挖掘等都比较类似，在宏观上说都属于内容质量的领域，所以很多方法其实是通用的框架。

本文主要简单介绍了我们的做法和几篇具有典型代表的假新闻论文，从不同的方法路径去了解多模态、网络游走、特征挖掘等手段在假新闻领域上的一些实践。

模型构建

根据 [Kai Shu, 2017] 的划分，模型在这里主要有两类：1）基于内容的建模；2）基于社交网络的模型。

1. 基于内容建模

有 1.1 面向知识和事实库的和 1.2 面向行文风格的。

1.1 面向知识库

事实检查系统有点类似谣言鉴别系统，对文章描述的观点和客观事物进行校真，类似 QA 系统是一个比较复杂的 NLP 领域，包括知识表示、知识推理。在知识库数据集上有集中划分方式：

1. 专家系统：各个领域的专家构建的知识库，显然这种方式的效率和扩展性都非常差。不过如果是垂直类目（生物，历史）那或许可以在某个客观事实比较多的类目下进行尝试；

2. 集体智慧：用户集体知识的反馈来构建的一套知识库。

1 和 2 有了之后其实可以通过类似检索的方法，来对新的内容进行相似度判断，从而充分利用积累的历史内容提供出来的特征指示。

3. 基于算法分类：使用知识图谱或者事理图谱来对内容进行真实性判断，当前主要的开放知识图谱有 DB-pedia 和 Google Relation Extraction 数据集。

这个领域的问题，类似 NLP 的 QA 问题，有兴趣的同学可以参考 [Yuyu Zhang, 2017] 的 VRN变分推理网络。

作者通过概率模型来识别问句中的实体，问答时在 KB 上做逻辑推理，且推理规则将被学习出来。即可用于做事实判断。

当前这个方向技术落地成本高，难度较大，效果也不一定理想。

1.2 面向内容风格

用文章内容本身的行文风格，通过上下文无关文法得到句子的句法结构，或者 RST 修辞依赖理论等其他 NLP 深度模型去捕捉句子文法信息。

根据捕捉文本信息描述种类的不同，作者分为两类，检测欺骗程度，检测描述的主观客观程度（越客观公正的可能性越大）两种。震惊体的标题党就属于这类。

其中，假新闻可能用到的特征，包括普通特征和聚合特征两大类。普通特征就是页面，文本，图片，标题等单纯的特征 embedding，聚合特征就是把各个普通特征进行组合和有监督的训练成一个一个子模型问题。然后这些子模型的输出又可以作为聚合特征用在假新闻领域。

下图就是我们使用的主要特征集：

其他：基于社交网络建模

分为两种，基于立场和基于传播行为的。

前者主要是基于用户对内容的操作（评论，点赞，举报等等）构建矩阵或者图模型。

而基于传播行为对对象建模，类似 PageRank 的行为传递。下面介绍的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是这种类型。

1. 对虚假新闻的传播游走轨迹跟踪，以及通过图模型和演化模型中针对特定假新闻的进一步调查；

2. 识别虚假新闻的关键传播者，对于减轻社交媒体的传播范围至关重要。

假新闻研究方向

[Kai Shu, 2017] 文章总结了假新闻的几个主要的研究方向。

数据方面的研究工作：现在还没有标准的测评数据集，这是需要去建立的。再有就是通过传播特性去更早的检测假新闻。另外一个就是从心理学角度去做假新闻的意图检测，这个角度过去往往被忽略。

模型特征方面的研究工作：往往会使用用户的画像特征，内容特征（NLP、CV）结合深度学习，还有传播网络特征，比如用户和内容之间的关系构造出来的网络特征，网络本身的 embedding 表现。

模型方面的研究工作：第一个就是特征之间的组合。第二是预测目标的变化。第三不论是从内容源，还是文章风格，或者内容的反馈（评论，等互动行为）都有各自的限制，组合这些模型。最后就是空间变换，把特征变换到另外的 latent 语义空间尝试解决。

数据集

FakeNewsNet

BuzzFeed 和 PolitiFact 两个平台的数据集，包括新闻内容本身（作者，标题，正文，图片视频）和社交上下文内容（用户画像，收听，关注等）。

数据集可获取方式：

https://github.com/KaiDMML/FakeNewsNet

代表论文

LIAR

该数据集也是来自 PolitiFact，包括内容本身和内容的基础属性数据（来源，正文）。

数据集可获取方式：

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

代表论文

Twitter and Weibo DataSet

一个比较全的数据集包括帖子 ID，发帖用户 ID，正文，回复等数据。

数据集可获取方式：

http://alt.qcri.org/~wgao/data/rumdect.zip

代表论文

Twitter15 Twitter16

被上面的数据集使用。来自 Twitter 15、16 年的帖子，包括了帖子之间的树状收听，关注关系和帖子正文等。

数据集可获取方式：

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

代表论文

Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的选举假新闻，以及作者收集的 75个新闻故事。假新闻，真新闻和讽刺新闻。

数据集可获取方式：

https://github.com/rpitrust/fakenewsdata1

代表论文

数据挖掘

[Benjamin D. Horne and Sibel Adalı,2017] 通过手工构建了大量的特征，使用单因素方差分析和秩和检验对特征进行挖掘。发现真新闻文章明显长于假新闻文章，假新闻很少使用技术词汇，更少的标点符号，更少的引号和更多的词汇是冗余的。另外标题也有明显的不同，假新闻的标题会更长，更喜欢增加名词和动词。真的新闻通过讨论来说服，假新闻通过启发来说服。

类似的内容分析还有：Automatic Detection of Fake News。

[z.zhao et, 2018] 发现大多数人转发（红点）真实新闻是从一个集中的来源（绿点）。而虚假新闻通过人们转发其他转发者来传播的。

参考文献

[1]. Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexander J. Smola, Le Song. "Variational Reasoning for Question Answering with Knowledge Graph". arXiv preprint arXiv:1709.04071, 2017.

[2]. Zhiwei Jin, Juan Cao, Yongdong Zhang, and Jiebo Luo. "News Verification by Exploiting Conflicting Social Viewpoints in Microblogs". AAAI 2016.

[3]. Kai Shu, Suhang Wang, Huan Liu. "Beyond News Contents: The Role of Social Context for Fake News Detection". WSDM 2019.

[4]. Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, Huan Liu. "Fake News Detection on Social Media: A Data Mining Perspective". SIGKDD 2017.

[5]. William Yang Wang. “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection. ACL 2017.

[6]. Natali Ruchansky, Sungyong Seo, Yan Liu. "CSI: A Hybrid Deep Model for Fake News Detection". CIKM 2017.

[7]. Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M. Meyer, Iryna Gurevych. "A Retrospective Analysis of the Fake News Challenge Stance Detection Task". arXiv preprint arXiv:1806.05180, 2018.

[8]. Benjamin D. Horne, Sibel Adali. "This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News". ICWSM 2017.