题目:

Mining Implicit Relevance Feedback from User Behavior for Web Question Answering

简介:

训练和刷新用于多语言商业搜索引擎的Web级问答系统通常需要大量的数据。一个想法是从搜索引擎日志中记录的用户行为从而挖掘隐式相关性。以前所有有关挖掘隐式相关性的著作都将反馈的目标指定为Web文档的相关性。由于QA任务中的几个独特特性,现有的Web文档用户行为模型无法应用于推断段落相关性。在本文中,我们进行了第一项研究,以探索用户行为与段落之间的相关性,并提出了一种挖掘Web QA训练数据的方法。我们对四个测试数据集进行了广泛的实验,结果表明,在没有人标记的数据中,我们的方法显着提高了段落排名的准确性。实际上,已证明这项工作有效地降低了全球商业搜索引擎中质量检查服务的人工标记成本,尤其是对于资源较少的语言。

成为VIP会员查看完整内容
0
19

相关内容

摘要:社交网络上的意识形态分类任务有很广阔的应用场景,也面临着一些挑战。本文从推特获取了数据,并拟用图嵌入模型解决此问题。主流的图嵌入模型研究仅关注规模小而稀疏,并且标签丰富的数据集,比如学术网络数据。而在真实应用场景中,存在规模更大且连接稠密,但是标签稀疏的数据,比如社交网络数据。这种大而稠密的数据使得主流嵌入模型效率很低,并且非常容易产生过拟合现象。另外,真实数据具有不完全性和异质性的特点,给图嵌入模型带来极大的挑战。能够解决此类问题的模型,理论上可以推广到任意的真实社交网络数据。本文提出了一种多任务多关系的嵌入模型,利用多种关系类型作为补充来处理规模大而标签稀疏的图数据,进一步提出了可以使得本模型能在特征缺失的情况下使用不完整的特征进行学习的方法。针对规模大而关系异质的问题,本文首先采用多关系的图卷积网络对特征进行编码;同时为了解决缺失特征的问题,当特征不完整时,将缺失部分的特征视作可训练的参数。然后采用多任务解码器,让多个任务互相协助,从而解决标签稀疏的问题。作者采集整理了真实的推特数据并且进行了意识形态分类,实验表明TIMME模型优于其他最先进的模型。

本文的代码和数据都已经公布,欢迎读者推广应用于其他真实社交网络数据的用户分类问题。

成为VIP会员查看完整内容
0
20

主题: Graph Neural Networks with Continual Learning for Fake News Detection from Social Media

摘要: 尽管已经花费大量精力进行事实核查,但假新闻在社交媒体上的普遍使用对司法,公众信任以及我们整个社会都产生了深远影响,仍然是一个严重的问题。在这项工作中,我们专注于基于传播的虚假新闻检测,因为最近的研究表明,虚假新闻和真实新闻在网络上的传播方式不同。具体来说,考虑到图神经网络(GNN)处理非欧氏数据的能力,我们使用GNN区分社交媒体上的假新闻和真实新闻的传播方式。具体来说,我们集中在两个问题上:(1)在不依赖任何文本信息(例如推文内容,回复和用户描述)的情况下,GNN如何准确地识别假新闻?众所周知,机器学习模型容易受到对抗性攻击,而避免依赖于基于文本的功能会使模型不易受到高级假新闻造假者的操纵。 (2)如何处理看不见的新数据?换句话说,在给定的数据集上训练的GNN如何在新的且可能完全不同的数据集上执行?如果性能不能令人满意,我们如何解决该问题而又不从头开始对整个数据重新训练模型,而随着数据量的增长,这在实践中将变得过高地昂贵?我们在具有数千个带有标签新闻的两个数据集上研究了上述问题,我们的结果表明:(1)GNN确实可以实现可比或更高的性能,而无需任何文本信息即可达到最新方法。 (2)在给定的数据集上训练的GNN在新的,看不见的数据上可能表现不佳,并且直接增量训练无法解决问题-在以前的将GNN用于伪造新闻检测的工作中,尚未解决此问题。为了解决该问题,我们提出了一种方法,该方法通过使用持续学习中的技术逐步训练GNN,从而在现有数据集和新数据集上均达到平衡的性能。

成为VIP会员查看完整内容
0
30

题目:

Mining Anomalies using Static and Dynamic Graphs

简介:

在许多情况下,例如安全性,医疗保健,财务和网络,异常检测,即稀有或异常模式是一个紧迫的问题。审查欺诈和网络入侵攻击之类的异常编码可疑,欺诈或恶意行为,不仅影响人们做出次优的决策,而且稳定地削弱了他们对业务的信任。这样,检测正在进行的异常并警告即将发生的异常的算法对企业和最终用户都具有很大的影响。本文通过开发可利用连接性和时间信息来检测异常行为或事件的原理化,可扩展算法,来考虑异常检测问题。这些方法对于大型动态复杂数据集很有用,这些数据集具有很强的关系和时间特性,多个实体相互交互,并且会随着时间而发展。如今,此类数据集是在多种多样的环境中生成的,其示例范围从电子商务日志到在线社交网络再到物联网。 论文的前半部分着重于图形中的异常检测,在这些图中,只有静态连接信息是已知的。给定一个图和一些标记的顶点,我们如何推断其余顶点的标记?例如,我们如何从一小组手动标记的诚实和伪造帐户中发现Amazon或Facebook上的所有伪造用户帐户?与现有文献相比,我们的工作利用了现实世界图中的三个关键属性,即顶点和边类型的异质性,偏度分布和高阶结构,可以产生更准确的顶点标记。所提出的算法具有封闭形式的解决方案,严格的收敛性保证,可以使用稀疏矩阵运算有效地实现,并且可以随图形大小线性缩放。 本文的后半部分着重于从连接结构随时间变化的数据中挖掘异常。在许多情况下,尤其是与安全和卫生保健有关的情况,新发现或预期的异常的价值在于当下,而不是不久的将来。因此,给定一个随时间变化的图表(显式图或隐式图),我们如何才能近乎实时地检测异常或事件,甚至可能在它们发生之前提早发出警报?我们的算法可以通过仅存储到目前为止所看到的图形的简短摘要并且不需要监督,就可以实时检测异常图形的足迹,例如密集子图的突然出现或消失以及桥边。我们还展示了如何以在线方式从时间序列数据推断状态转换图,并使用它来提前警告用户标记的异常,例如不利的医疗条件。在整个论文中,着重强调的算法不仅(a)在实践中有效,而且(b)高效,可以在几秒钟内在普通笔记本电脑上处理数百万条边缘,并且(c)有原则可以进行严格的推理,从而为推理,检测或利用数据相关的见解提供理论上的保证。我们证明了我们的算法在从社交网络和电子商务到安全和医疗保健的一系列应用中的功效。

成为VIP会员查看完整内容
0
48

个性化文档推荐系统的目标是为用户提供一个快速的快捷方式来访问他们接下来可能想要访问的文档,通常还会解释推荐文档的原因。以前的工作探讨了不同领域更好的推荐和解释的各种方法。但是,很少有人仔细研究用户对文档推荐场景中的推荐项的反应。我们在最大的云文档平台office.com上对用户的交互行为进行了大规模的日志研究,并给出了可解释的建议。我们的分析揭示了许多因素,包括显示位置、文件类型、作者、最后访问的最近时间,以及最重要的,与用户是否会识别或打开推荐文档相关的推荐说明。另外,我们专门针对解释进行了在线实验,考察不同解释对用户行为的影响。我们的分析表明,这些建议可以帮助用户更快地访问他们的文档,但有时用户会错过某个建议,并求助于其他更复杂的方法来打开文档。我们的结果提供了改进解释的机会,更广泛地说,提供和解释文档建议的系统的设计也提供了改进的机会。

成为VIP会员查看完整内容
0
27

知识图谱补全(KGC)任务的目的是自动推断知识图谱(KG)中缺失的事实信息。在本文中,我们采用了一个新的视角,旨在利用丰富的用户-项目交互数据(简称用户交互数据)来改进KGC任务。我们的工作灵感来自于许多KG实体对应于应用程序系统中的在线项目的观察。然而,这两种数据源具有非常不同的内在特性,使用简单的融合策略可能会影响原始的性能。

为了解决这一挑战,我们提出了一种利用KGC任务的用户交互数据的新颖的对抗性学习方法。我们的生成器是与用户交互数据隔离的,用于提高鉴别器的性能。鉴别器将从用户交互数据中学习到的有用信息作为输入,逐步增强评价能力,以识别生成器生成的虚假样本。为了发现用户的隐式实体偏好,我们设计了一种基于图神经网络的协同学习算法,该算法将与鉴别器共同优化。这种方法可以有效地缓解KGC任务的数据异构性和语义复杂性问题。在三个真实数据集上的大量实验证明了我们的方法在KGC任务上的有效性。

成为VIP会员查看完整内容
0
34
小贴士
相关VIP内容
专知会员服务
21+阅读 · 2020年4月12日
专知会员服务
27+阅读 · 2020年4月5日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
20+阅读 · 2020年1月28日
相关论文
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
Boxiao Pan,Haoye Cai,De-An Huang,Kuan-Hui Lee,Adrien Gaidon,Ehsan Adeli,Juan Carlos Niebles
19+阅读 · 2020年3月31日
Object-Oriented Video Captioning with Temporal Graph and Prior Knowledge Building
Fangyi Zhu,Jenq-Neng Hwang,Zhanyu Ma,Jun Guo
3+阅读 · 2020年3月12日
Mi Luo,Fei Chen,Pengxiang Cheng,Zhenhua Dong,Xiuqiang He,Jiashi Feng,Zhenguo Li
4+阅读 · 2020年2月13日
Learning Recommender Systems from Multi-Behavior Data
Chen Gao,Xiangnan He,Dahua Gan,Xiangning Chen,Fuli Feng,Yong Li,Tat-Seng Chua,Depeng Jin
3+阅读 · 2018年11月29日
Yi Tay,Anh Tuan Luu,Siu Cheung Hui
4+阅读 · 2018年5月29日
Jack Hessel,David Mimno,Lillian Lee
5+阅读 · 2018年5月23日
Tran Dang Quang Vinh,Tuan-Anh Nguyen Pham,Gao Cong,Xiao-Li Li
12+阅读 · 2018年4月18日
Julia Kreutzer,Shahram Khadivi,Evgeny Matusov,Stefan Riezler
3+阅读 · 2018年4月16日
Sven Schmit,Carlos Riquelme
6+阅读 · 2018年3月28日
Yi Tay,Anh Tuan Luu,Siu Cheung Hui
5+阅读 · 2018年1月7日
Top