如何用AI鉴别出垃圾水文？腾讯微信团队ACMMM2020《自媒体在线文章质量的认知表示学习》讲解

2020 年 8 月 17 日 专知

转载机器之心专栏

作者：腾讯微信团队

自媒体时代，每个公众号都在思考一个问题：如何让我的文章被更多人看到？其实，除了运营之外，本章本身的质量才是最根本的。在这篇文章中，腾讯微信数据质量团队解读了他们的自媒体在线文章质量自动评估算法，告诉你模型眼中的好文章都是什么样的。

移动阅读时代涌现了许多用户生成内容模式下的自媒体平台，每个用户都可以作为内容生产者，这种开放性同时也导致了自媒体在线文章的质量参差不齐。自动评估自媒体在线文章质量对在线推荐、搜索和广告等应用场景都具有重要意义，然而当前几乎没有针对该任务的研究工作。

不同于格式良好的传统文章（例如学术论文和 Wikipedia 文档），自媒体在线文章主要由用户创建，没有统一的格式、布局和写作规范，包含文本、图像和视频的多模态混合编辑，以及内容丰富、风格多样、语义跨度大的潜在特征。同时，评估过程需要充分考虑读者的阅读体验。此外，影响文章质量的因素包括内容，排版布局，写作风格等不同方面下的多种影响因素。这些都使得自媒体在线文章质量的自动评估变得更加复杂和具有挑战性。

为了解决这些挑战，在 ACM MM2020 中，腾讯微信数据质量团队建立了一个统一的框架来有效地学习和整合在线文章质量评估的不同因素，结合排版布局、写作风格和深度语义建立了一个联合模型 CoQAN ，设计了不同的表示学习子网络，特别是考虑了交互特征学习过程和移动终端上的交互阅读习惯，这与人类对文章质量评价的认知方式更为贴合。作者还构建了一个大规模的真实世界评估数据集。充分的实验结果表明，所提出的方法有效地学习和整合了在线文章质量评估的不同因素。

论文链接： https://arxiv.org/pdf/2008.05658.pdf

考虑到自媒体平台的性质，作者将自媒体在线文章质量合理地定义为文章带给用户的阅读体验水平，即文章的可读性，反映在文章的信息内容、写作规范、用户感知等方面。

高质量文章需要满足布局工整美观，有清晰的版块和段落划分，图片和文字排列整齐; 内容具有连贯性和高聚合度，具有良好的写作逻辑和丰富的信息。相反，低质量的文章往往布局或写作逻辑令人困惑，内容不完整或无意义，甚至可能是一片拥挤的文本或混乱的纯图片或视频。

图 1 展示了两篇报道同一新闻「绑架和谋杀中国学者张莹颖事件」的微信公众号文章，我们可以很容易地分辨出它们之间的区别：右侧低质量的文章包含不相关的广告图片，并且它在很少的文本行数中使用了多种文本格式，这给读者的眼睛带来了不必要的负担，而且在表达上使用了更多口语和情感词。相反地，左侧的高质量文章具有更好的写作逻辑和表达方式并传达了更丰富的内容。

图 1：高质文章（左）与低质文章（右）示例

我们知道人类阅读自媒体在线文章时的认知过程是由浅入深的。

读者点开文章时，首先感受到的是排版外观，即读者的表层认知。精美的视觉布局和丰富的呈现形式可以使读者对文章产生兴趣，并为读者带来更好的阅读体验。

然后，读者通过浏览词汇、句法、文章组织和图片来获得内容的主要印象，这是读者的浅层认知。

最后，读者需要对文本语义和写作逻辑有深度的理解，才能领略到文章的意义和价值，这是读者的深层认知。

受上述认知过程的启发，本文建议结合布局组织、写作特征和文本语义，交互地进行特征表示学习并整合到统一框架中以评估自媒体在线文章的质量。不同于传统的文档质量评估大多只考虑文本要素，本文所提方法将图片用作建模页面布局的关键单元，并提取重要的图片特征以反映视觉观感水平和文章的可读性。

该工作的主要贡献包括：

据了解，这是解决自媒体在线文章质量自动评估的第一项研究工作。所提出的方法可以很好地模拟人类专家的评分要素和阅读习惯。
作者提出了一个结合了不同特征空间子网络的联合认知表示学习模型，并构建了自媒体在线文章质量评估的端到端框架。
作者构造一个大规模的现实世界数据集。充分的实验结果表明，提出的模型明显优于以往的文档质量评估方法。

具体方法

本文将自媒体在线文章质量评估视为一项分类任务，即给定一篇文章，预测其为高质量文章或是低质量文章。

图 2 展示了本文提出的自媒体在线文章质量评估的 CoQAN 网络架构，其中设计了三个子网络来解耦布局组织、写作特征和文本语义的建模。

对于布局建模，研究者考虑了人们在终端上阅读自媒体文章时从上到下滑动浏览的顺序阅读习惯，将文章划分为内容块序列，显式地学习文章图文标题等要素的排版布局，并同时捕捉整体的页面布局和局部的排版模式。

写作特征子网络考虑到了多模态元素特征，并且能够通过深层次的特征交互关系的学习进行不同特征子空间的特征选择和特征融合，实现高阶非线性的特征融合。

文本语义子网络从不同语义层次深入捕获篇章级长文本内容中的语义和内聚关系，深入学习复杂的语义空间中词间和句间的依赖以及文章整体的写作逻辑。在融合层，每个子网络都经过一个全连接层以调整各神经元在输出向量中的权重，级联后经过输出层预测得到质量类别。

图 2：本文提出的自媒体在线文章质量评估 的 CoQAN 网络 架构

布局组织子网络

为了显式学习外观布局的组织排列，作者首先通过页面解析将文章划分为一序列的内容块，内容块可以是标题、段落、图片或视频，如图 3 所示。

之后，为每个内容块提取页面布局相关特征，例如类型（文本 / 图片 / 视频）、在文章中的位置、内容块自身高度、距页面顶部的距离等。将这些特征值进行聚合构成每个内容块的排版特征向量，其可以表达多个重要的布局特征。

图 3 ：布局组织子网络中内容块提取和输入特征向量的构建

在内容块排版特征向量序列上应用 GRU 网络来建模内容块之间的序列依赖并捕获文章的全局排列模式。同时，作者在输入排版向量上应用了一维卷积神经网络以学习关键的局部布局，设定多个尺寸的卷积核来捕获不同比例的布局模式。两个网络进行级联产生该子网络的输出向量。

写作特征子网络

写作特征子网络可以捕获在线文章的编辑风格。作者提取和计算了包括标题、正文、图片和视频、篇章组织等方面的特征。例如，标题特征包括标题长度、关键字数目等；正文特征包括文章类别、文本长度、n-gram、词性标签、非重复字符和非重复单词比例等；图片和视频特征包括图片数目、动图数目、视频数目、OCR 文字的最大数目等，篇章组织特征包括段落数目、作为版块标识的模板图片数目、图片数与段落数的比例等。

为了允许不同类别特征和数值特征之间的交互，写作特征子网络首先通过嵌入层将所有特征投影到相同的特征空间中，旨在在嵌入空间中对高阶组合特征进行建模。在本文中，作者通过应用多头自注意力层同时在多个特征子空间中学习不同特征之间的相互依赖关系，并进行特征空间的融合。多头使得一个特征域可以包含在不同组合特征中。

作者在网络中添加了残差连接以保留之前学习到的更低阶的组合特征，包括原始的单特征。网络堆叠多层多头自注意力层，从而可以同时建模多阶组合特征，实现不同空间的深度特征融合。

文本语义子网络

作者改进 BERT，设计 hi-Bert 作为文本语义子网络。依靠强大的预训练技术，BERT 具有很强的建模上下文关系的能力。由于 BERT 中的自注意力机制的时间复杂度为 O(n2)，BERT 目前仅用于处理句子级文本，并不适合用于文档级长文本输入。考虑到文档固有的层次结构，即单词构成句子、句子构成文档，作者将 BERT 改进为层次结构称为 hi-BERT，其包含两个层级的编码器依次对文档进行编码，分别应用于句子级别和文档级别。

由于标题是对文章的高层概述，这里将标题也作为输入句子。在句子级别，网络以迁移学习的方式使用预训练的 BERT。在文档级别，作者采用了文档级双向 Transformer 层学习句子之间的深层依赖关系得到最终的文章语义向量。hi-BERT 可以深入学习单词和句子之间的交互关系，并在面对不同的写作风格时可以学习到鲁棒的文章语义表示。

实验结果

由于尚无公开数据集可用于自媒体在线文章质量评估任务，作者从微信公众号平台上收集处理在线文章数据，构建了一个自媒体在线文章质量分类数据集。该数据集包含 38,248 篇在线文章，涵盖了 44 种文章类别，涵盖新闻，金融，技术，民生等。实验在该数据集上进行评估。

对比实验结果显示，所提方法 CoQAN 在各项指标上均显著达到最佳。实验中，基线模型与本文所提模型使用相同的特征，因此模型的优越性能受益于作者提出的联合网络表示学习架构，可以完备性地学习到更多有价值的信息。

消融实验结果证明了每个子网络的架构以及联合学习的有效性。去除文本语义子网络时，网络性能下降最大，这说明建模好复杂的写作知识是非常必要的。另外，文本语义子网络的性能超过了仅对文本输入建模的所有基线模型，并且写作特征子网络的性能超过了所有基于特征的基线模型，对文章布局的建模可以有效提升文章质量评估的性能。从实验结果来看，任何两个子网络联合后的性能都优于单一子网络，并且联合了三个子网络的整体网络 CoQAN 是最优的，这证明每个子网络对于自媒体在线文章质量评估都发挥了重要作用。

作者设计了扰动实验，以验证模型是否可以学习到所关注的写作逻辑和布局模式。实验中，随机打乱所有被正确预测为正样本的文章的句子或布局内容块的顺序，并将打乱后的样本视为负样本，观察成功扰动的比例。扰动率越高，说明模型对写作逻辑和布局模式更为敏感，对文章质量的评估能力越强。

从结果来看，本文提出的模型显然比所有对比模型对句子打乱的干扰更为敏感，这表明 CoQAN 可以更轻松地捕获句子之间的内聚关系，并学习内容和写作逻辑的一致性。单文本语义子网络（TS）的成功干扰率要高于整体联合网络 CoQAN ，这是因为扰动实验是对正样本进行的，而正样本具有良好的文本质量和排版质量。因此，当仅打乱句子时，良好的布局会在一定程度上阻止 CoQAN 将其判断为负样本。同时打乱布局顺序和句子顺序时，成功干扰的比例远高于单一维度下的干扰。这些结果证明了本文提出的 CoQAN 成功地学习到了文本写作和页面布局的知识。

另外，作者对特征的交互关系进行了可视化分析，发现底部自注意力层可以区分主导特征，而顶层则学习更复杂的特征空间交互，获得有意义的高阶融合特征。图中结果可见，占主导的特征有文本长度和图片中的最大字符数，高质文章通常具有更丰富的内容和更规则的图片，而低质文章通常具有不完整的内容，并且经常出现包含很多文本文字的广告图片。其他重要特征包括图片中文本区域占比，非重复词数，标题中的关键词数，图片数，段落数和词性等，表明图片、标题、写作和正文的组织对于自媒体在线文章质量都非常重要。