WWW2022 | 采用推荐系统打击虚假新闻

2022 年 4 月 27 日 机器学习与推荐算法

嘿，记得给“机器学习与推荐算法”添加星标

本文所介绍被CCF A类会议WWW2022接收的题为《Veracity-aware and Event-driven Personalized News Recommendation for Fake News Mitigation》的论文。该论文所关注的问题是如何从个体用户的角度有效地减少假新闻（fake news）的传播。现有假新闻控制策略（fake news mitigation strategies）主要是采取策略来控制假新闻在整个社交网络中的传播，而不能从用户层面有针对性地减缓假新闻在他们中的传播和及对他们的影响，从而难以满足对不同用户采取有针对性的干预策略来减缓假新闻传播的需求。

本文所提出的Rec4Mit模型创新性地引入推荐系统来打击假新闻的传播。 一方面，该方法通过输入用户阅读过的历史新闻来探测用户在新闻阅读中关注的新闻事件（event）以及关注的前后事件之间的关联来预测用户接下来可能会感兴趣的事件。另一方面，该方法采用一个新闻真假检测模块来对候选新闻的真假性进行检测，从而将假新闻过滤掉。综合两方面的作用，该模型最后通过给用户推荐他们所关注的事件下的真新闻来达到新闻推荐和打击假新闻的目的。

论文的信息为：

Shoujin Wang, Xiaofei Xu, Xiuzhen Zhang, Yan Wang, and Wenzhuo Song. 2022. Veracity-aware and Event-driven Personalized News Recommendation for Fake News Mitigation. In Proceedings of the ACM Web Conference 2022 (WWW ’22), April 25–29, 2022, Virtual Event, Lyon, France. ACM, New York, NY, USA, 12 pages.

https://doi.org/10.1145/3485447.3512263

1. 引言

随着社交媒体的快速发展，假新闻因其对社会的严重危害性获得了各国政府和社交媒体平台越来越多的关注。作为一个崭新且重要的科学问题，假新闻控制的目标是抑制假新闻在社交媒体平台用户间的传播。近年来，学术界提出了多种先进的假新闻检测算法，并在各平台获得了广泛应用，但仍然不能有效抑制真实场景中假新闻的传播。其原因之一是大多数现有工作通过促进真新闻的传播来反制假新闻，将假新闻的控制问题转化为真新闻在社交网络上最大化传播的优化问题。然后采用独立级联模型（Independent Cascade, IC）、线性阈值模型（Linear Threshold, LT）、点过程模型或增强学习等算法来建模真新闻的传播过程。然而，这种策略一方面只能专注于整个社交网络的假新闻控制问题，不能为具有不同行为模式的用户提供针对性的假新闻控制策略；另一方面也难以将算法应用到信息传播模式和用户行为不断变化的现实中的社交媒体平台。

针对上述问题，本工作所关注的问题是如何设计有效的策略来干预社交网络中个体用户分享假新闻。面对此目标，本文提出了一种具有假新闻纠正能力的个性化的新闻推荐算法来控制假新闻在社交网络中的传播。

新闻推荐算法在社交媒体平台中能够影响用户的阅读行为，但现有新闻推荐算法并未考虑假新闻数据集独特的数据特征和打击假新闻这一特定目标所带来的问题和挑战。具体来说，对于包含假新闻的数据，每条新闻通常与一个现实世界中的新闻事件（event）关联；其中每个事件（例如美国总统选举）通常与大量具有不同真实性程度的新闻相关联。在一段时间内，用户可能同时阅读同一事件的真新闻和/或假新闻，也可能对多个相关事件的真/假新闻感兴趣。为了达成打击假新闻的目标，新闻推荐算法不仅需要为具有不同兴趣的用户推荐其感兴趣的事件的新闻，还需要尽可能只为用户推送真新闻。尤其是当用户已经阅读了关于某一事件的假新闻后，新闻推荐算法需要能够推送对应的真新闻来抑制假新闻的传播。

通过以上分析可以看出，给定一个用户的阅读历史（可能包含真新闻和/或假新闻），设计能够打击假新闻的推荐算法需要面对如下挑战：（1）如何检测和建模用户阅读历史中隐含的事件及他们之间复杂的关系？（2）如何尽可能只为用户推荐真新闻？（3）如何在建模的过程中避免新闻的真实性信息与事件信息之间的相互干扰？因为同一事件的真新闻和假新闻通常具有不同的内容特征，容易误导事件建模将两者视为来自不同事件。

现有新闻推荐算法主要采用协同过滤和基于内容的推荐等传统推荐算法。这些算法的设计目标是为用户推荐最符合个人偏好的新闻，但现有工作并未考虑新闻的真实性。此外，现有工作也并未深入研究新闻数据中隐含的事件信息及事件间复杂的关系。因此现有新闻推荐算法并不能有效控制假新闻的传播。

针对以上所描述的挑战，本文提出了一种新闻事件和新闻真实性驱动的新型新闻推荐算法Rec4Mit（Recommendation for Mitigation）。Rec4Mit能够从数据中提取出每条新闻对应的真实性信息和事件信息，并在建模中有效降低两者间的相互干扰。然后，Rec4Mit采用事件检测模块（event detection module）从数据中学习事件的表示，再使用事件转移（event transition module）模块建模用户阅读的新闻中隐含的前后事件之间的转移关系。同时，Rec4Mit采用一个新闻真实性预测模块（news veracity predictor）来预测新闻的真假。最后，模型综合新闻蕴藏的事件信息，以及新闻真实性信息来预测每位用户下一个感兴趣的真实新闻。综上，本工作的主要贡献包括：

我们提出了一种旨在抑制假新闻在社交媒体平台上传播的个性化新闻推荐算法。本文是首个针对此问题，并分析其面临的挑战和独特的数据特征，形式化问题并提出解决方案的工作。
我们提出了一个新型新闻推荐算法Rec4Mit来为每位用户推荐感兴趣的新闻，同时抑制假新闻传播。
Rec4Mit中包含一个能够有效地从数据中提取每条新闻对应真实性信息和事件信息的提取器，一个事件检测和转移模块来提取事件及建模前后事件的相关性，以及一个分类器来预测新闻的真实性。

本文在两个真实数据集上采用大量实验验证所提出算法的有效性，实验表明在考虑抑制假新闻场景下推荐用户感兴趣的新闻时，本文所提出的算法的表现显著优于现有最先进的新闻推荐算法。

2. 算法

首先形式化本文所涉及的研究问题。给定一位用户的（）条阅读过的历史新闻，我们的模型的目标是从中学习用户动态变化的偏好，同时从新闻对应的内容信息中预测新闻的真实性。

如图1所示，Rec4Mit模型包括事件-真实性提取器（Event-veracity Disentangler）、事件检测和转移模块（Event Detection and Transition Module）和下一新闻预测模块（Next-news Predictor）三个主要模块。算法的流程如下：给定一个用户的新闻阅读历史，事件-真实性提取器首先为每个新闻学习一个包含所关联的事件信息的向量表示和一个包含真实性信息的向量表示；接下来，事件检测和转移模块以事件信息的向量表示作为输入，从用户的历史新闻中检测事件，建模阅读历史序列对应的事件间复杂的转移关系，同时提取用户对事件的动态偏好信息；最后，模型采用下一新闻预测模块预测最符合用户偏好的新闻，同时预测新闻的真实性，并将最符合用户当前阅读兴趣的真新闻组成列表推荐给用户。下面将简要介绍Rec4Mit的三个模块。

事件-真实性提取器的设计需要避免新闻中隐含的事件信息和真实性信息之间的互相干扰。在本工作中该模块采用对抗自编码器（adversarial auto-encoder）作为框架，主要由包括编码器（encoder）、事件解码器（event decoder）、真实性解码器（veracity decoder）和一个特殊设计的损失函数构成，具体结构见图1（b）。

事件检测和转移模块的设计目标是赋予模型检测用户动态变化的新闻偏好中对应事件的关注和建模事件转移模式。模块主要包含一个事件检测器（event detector）和一个事件转移网络（event transition net）。

下一新闻预测模块的目标是输出一个候选新闻推送给目标用户的概率。模块首先计算用户历史新闻中包含的事件及其转移模式与候选新闻的事件之间的关联度，以此预测候选新闻是否符合用户当前的兴趣；模块还同时借助候选新闻的真实性信息来达到只为用户推荐真新闻的目的。最后，模块为用户推荐最符合其当前兴趣的个真新闻组成的列表。

图1：（a）Rec4Mit包含事件-真实性提取器（Event-veracity Disentangler）、事件检测和转移模块（Event Detection and Transition Module）和下一新闻预测模块（Next-news Predictor）；（b）事件-真实性提取器包含编码器（Encoder）、事件解码器（Event Decoder）、真实性解码器（Veracity Decoder）和真实性分类器（Veracity Classifier）

3. 实验

本工作采用FakeNewsNet数据集验证其算法的有效性。FakeNewsNet包含PolitiFact和GossipCop两个数据集，数据集中包含了每个用户以时间排序的新闻阅读历史，同时标注了每个新闻的真实性。数据集的基本统计信息见表1。

实验中采用了最有代表性和最先进的序列推荐算法/新闻推荐算法作为基线算法，通过对比算法的表现来验证所提出算法的有效性。实验最终选择的基线算法主要有采用基于最近邻思想、记忆网络、图神经网络、递归神经网络和注意力等先进技术的代表性序列推荐模型，包括SKNN/CSRM/SR-GNN/SASRec，以及最先进的新闻推荐算法DAN/NRMS/ LSTUR/FedNewsRec/FIM等模型。

本文的研究目标是控制假新闻的推荐，因此实验一方面通过预测下一条新闻的准确度来衡量各算法在推荐最符合用户兴趣的新闻方面的表现，另一方面计算算法所生成的推荐列表中真新闻的比例来衡量各算法在抑制假新闻推荐和传播中的作用。其中前者采用衡量排序结果任务中常用的的recall、MRR和NDCG作为具体评价指标，后者直接计算推荐列表中真新闻的数量与推荐新闻数量的比值作为评价指标。

3.1 与基线算法的对比表现

本文首先对比各算法在推荐准确度上的表现，结果见表2。从实验结果可以看出本文所提出的算法在两个数据集上都获得了最优的表现，因为Rec4Mit能够同时考虑用户新闻浏览记录中的序列行为信息和新闻的元信息，同时考虑新闻中隐含的事件信息和事件转移模式。

第二个实验是对比各算法的结果中真新闻的占比，从实验结果中可以看到本文所提出的模型能够提供最高比例的真实新闻给用户，从而降低用户接触和传播假新闻的概率。

3.2 消融实验

为了分析Rec4Mit中各模块的作用，我们设计了如下Rec4Mit的变体模型：

Rec4Mit-Disen：移除事件-真实性提取器，采用新闻表示向量作为事件表示向量和真实性表示向量；
Rec4Mit-Event：移除事件检测模块，事件转移模式简化为同一事件的转移；
Rec4Mit-Label：移除新闻的真实性预测模块

表3中给出了Rec4Mit同以上三个变体在新闻预测准确度上的对比结果，从实验结果中我们可以得到如下发现：

发现1：事件-真实性提取器能够显著提升新闻预测的表现，表明该模块能够有效避免新闻的事件信息和真实性信息之间的相互干扰；
发现2：事件检测模块同样有助于提升新闻预测的表现，说明模块能够有效提取和利用用户的新闻阅读历史中包含的事件相关模式。
发现3：真实性预测模块也能够提升新闻预测的精度。

4. 总结

本工作关注的研究问题是提出有效而具体的针对每位用户的虚假新闻抑制策略。针对此问题，本文提出了一种基于事件的且对新闻真实性敏感的个性化新闻推荐模型Rec4Mit。模型中包含的事件-真实性提取器、事件检测和转移模块以及新闻真实性预测模块能够有效地从每位用户的新闻阅读历史中提取有价值的信息，为用户生成满足其当前兴趣的并且尽可能真实的新闻列表。本文在两个真实数据集上，将所提出算法与现有的最具代表性和最先进的基线算法做对比，实验结果充分验证了所提出算法的优越性，以及各模块的有效性。在未来的工作中，我们将研究具有更高准确度的隐含事件检测和事件转移建模方法，来进一步提升算法的准确性。