「自然语言处理(NLP)论文解读」网络社区问题分类与难易评估(含源码)

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-24

引言

    本次为大家分享是关于网络社区问答相关的两篇文章。第一篇主要针对网络社区提交问题,提出相似性分类算法来判断该问题是否清楚,进而帮助提问者优化自己提出的问题让回答者更加明确提问者的意图。第二篇主要评估网络社区提交问题的难易程度,来帮助优化网络社区建设。

First Blood

TILE: Identifying Unclear Questions in Community Question Answering Websites.
Contributor : 特文特大学(University of Twente)
Paper: https://arxiv.org/pdf/1901.06168v1.pdf
Code: https://github.com/jantrienes/ecir2019-qac

文章摘要

    社区网站上有很多提交的问题(CQA)都不是很清楚,没有专家社区成员的进一步澄清该问题是无法回答的。为此本文首次探讨将一个问题划分为清楚或不清楚的复杂任务。为此我们构造了一个新的数据集,提出了一种基于相似问题概念的分类方法。这种方法与最先进的文本分类基线进行了比较,发现本文方法是一种可行的替代方法。

模型方法介绍

    不明确的问题检测任务可以看作是一个二分类问题。给定一个包含N个问题的数据集,Q = {q1,…,qN},其中每个问题都属于clear类或unclear类,预测一个新的(不可见的)问题q的类标签。在本节中,我们提出了一个利用相似问题特征作为分类特征的模型。我们将一个问题定义为,如果它收到了澄清问题,那么它就是不清楚的;如果在没有澄清请求的情况下提供了答案,那么它是清楚的。为了支持用户提出问题,并提高问题的质量,我们设想了以下两步系统:(1)确定一个问题是否需要澄清(2)自动生成和提出澄清问题,引出缺失的信息。本文主要论述了第一步。如下图所示:

相似问题模型

     相似问题模型的核心思想是,现有相似问题可能提供有关信息存在与否的有用指标。 例如,考虑表1中的两个问题。

可以看出,在提出澄清问题之后,现有的问题增加了具体额外信息。分类系统可以从澄清问题中提取关键短语(如操作系统),并检查该信息是否存在于给定的问题中(如图1)。换句话说,系统会检查新问题是否缺少之前类似问题中缺少的信息。结果表明,该方法可以成功地用于澄清问题的寻找和排序。
    类似的问题模型可以形式化如下。给定一个新的问题q,我们首先寻找一组k个类似的问题,以及它们清晰和不清晰的标签。根据我们对不清楚的定义,不清楚问题Q0不清楚的子集有一组M个对应的澄清问题。在这个框架中,我们设计了一些新的指示性特征,然后用来训练分类器来区分这两个类。如下所示:

特征(Feature)

    相似问题模型使用的特征可以分为三类:
    (i)基于q的特征;
    (ii)基于相似问题Q0集的特征;
    (iii)基于澄清问题CQ0集的特征。

    具体可见下表。

实验结果

    unclear问题检测结果


    在实际社区网上的模型效果
    本文模型和BoW LR分类器对比

Double Kill

TILE: DiffQue: Estimating Relative Difficulty of Questions in Community Question Answering Services.
Contributor : Amazon私人有限公司(印度)
Paper: https://arxiv.org/pdf/1906.00145v1.pdf
Code: https://github.com/LCS2-IIITD/DiffQue-TIST

文章摘要

    在社区问答服务中,一对问题相对难度的自动估计是一个重要而又具有挑战性的问题。针对这个问题,提出了一个新的系统DiffQue,它将这个问题映射到一个基于网络辅助的边缘方向性预测问题上。首先构建了一个新颖的网络结构,用于捕捉问题对之间的不同;然后,通过预测网络中连接这两个问题的(虚拟)边缘方向来测量两个问题的相对难度。它利用了网络结构的特征提取、用户/帖子的元数据和问答的文本描述。对来自两个CQA站点(进一步分为四个数据集)的数据集进行测试,与最佳基线相比,DiffQue的性能显著优于四种最先进的方法(F1得分高28.77%,AUC高28.72%)。除此之外与其他基线不同,(i) DiffQue能够对训练噪声做出适当的响应,(ii) DiffQue能够适应多个领域(CQA数据集),(iii) DiffQue能够有效地处理由于新发布的问题或新到达的用户缺乏信息而可能出现的“冷启动”问题。

本文四大看点

    1、提出了一种利用CQA服务中可用的用户交互和时间信息来构建网络的新方法。该网络根据难易程度对问题进行相对排序;
    2、我们将问题的相对难度估计问题映射到边缘定向预测问题,据我们所知,这是此类问题的首次尝试。我们提出的方法利用了CQA服务的三个基本属性——用户信息、时间信息和文本内容;
    3、DiffQue被证明是最好方法——它在精确度上不仅比其他基线好,而且也能对训练噪音和冷启动问题做出适当的反应。;
    4、我们生成了大量的CQA数据集,并根据困难程度手工标注了问题对,为研究界提供了可用的数据资源。

本文模型方法介绍

    下图显示了如何在不同场景中使用DiffQue:(a)问题路由:为了节省相应用户的时间和速度,专家会遇到更严格的问题而不是业余爱好者; (b)激励机制:如果用户回答了更棘手的问题,他应该在系统中的声誉方面获得更多激励。


    DiffQue模型首先将给定的cqa数据映射到一个有向和纵向的5个网络,其中每个节点对应一个问题,并且从一个问题指向另一个问题的边缘表示,后一个问题比前一个问题更难。一旦网络构造完成,DiffQue将训练一个边缘在给定网络上的方向预测模型,并预测连接两个给定问题的虚拟边缘的方向性。 DiffQue的架构示意图 如下所示

网络构建
    DiffQue将整个数据集建模为有向和纵向网络,其中V表示一组顶点,每个顶点对应一个队列;E是一组边。每个边可以是下面提到的三种类型之一 。
    类型一: 某一主题的专家不会在CQA网站上发布琐碎的问题,而且他/她会回答那些他/她有专长的问题。我们在假设1中捕捉到这两个概念。** 假设1:** 如果鲍勃正确回答了罗宾在某个话题上提出的问题Q,那么鲍勃稍后在该话题上提出的问题将被认为比Q更困难。
    类型二: 值得注意的是,类型1的边缘只假设Bob的问题很难处理,稍后将发布。这并没有考虑到鲍勃的当前所有问题(最近在过去发表在同一主题上)可能比罗宾的当前问题困难,即使前一个问题可能比后一个问题稍早发表。我们在假设中捕获这个概念2。假设2: 如果Bob正确地回答了与主题相关的问题,那么Bob最近发布的关于主题的问题将比Q更困难。
    类型三: 我们进一步考虑了单个用户在某个主题超时时发布的问题,并提出假设3。** 假设3:** 随着时间的推移,用户对某个主题的专业知识将不断增加,因此他/她将来会提出的与该主题相关的问题将变得越来越困难。

实验结果

    四种不同数据集的准确性结果(以f1和auc计)

    基线性能对比



    随着SO3数据集上(a)噪声1和(b)噪声2的增加,diffque、rcm和trueskill的准确度(F1分数由最大值归一化)发生变化。

    不同训练和测试集组合的DiffQue 的F1得分

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容