2021年第14届国际网络搜索与数据挖掘会议WSDM将在2021年3月8日到12日于线上举行。今年此次会议共收到了603份有效投稿,最终录取篇数为112篇,录取率为18.6%。近日大会公布了优秀论文奖项(WSDM 2021 Best Paper Award Runner-Up),共有5篇论文。

WSDM,全称为ACM网络搜索与数据挖掘国际会议(ACM International Conference on Web Search And Data Mining) ,是一个有关搜索和数据挖掘的互联网启发式研究的主要会议之一,每年举办一届。WSDM是信息检索与数据挖掘的顶级会议。

Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study

D Bahri, Y Tay, C Zheng, D Metzler, C Brunk, A Tomkins

[Google Research]

将生成式模型用于无监督评价网页语言/内容质量,通过人工评价证明,训练用来区分人工和机器生成文本的分类器,可作为“页面质量”的无监督预测器,在没有任何额外训练的情况下检测出低质量的网页内容。

https://arxiv.org/abs/2008.13533

ePBubLik:通过插入链接来减小极化气泡半径

RePBubLik: Reducing the Polarized Bubble Radius with Link Insertions 地址:http://arxiv.org/abs/2101.04751

作者:Shahrzad Haddadan, Cristina Menghini, Matteo Riondato, Eli Upfal

摘要:表达不同观点的页面之间的超链接图的拓扑结构可能会影响读者对各种内容的理解。结构性偏见可能会使读者陷入两极分化的泡沫中,而无法获得其他意见。我们将读者的行为建模为随机游走。如果从节点到另一观点的页面的随机游走的预期长度很大,则该节点处于极化泡沫中。图的结构偏差是高度极化的气泡半径的总和。我们研究了通过边插入来减少结构偏差的问题。在对数因子内很难治愈所有具有高极化气泡半径的节点,因此,我们着重于寻找插入的最佳 k 边以最大程度地减少结构偏差。我们介绍了RePBubLik,这是一种利用随机游走接近中心性的变体来选择要插入的边的算法。RePBubLik在温和条件下获得恒定因子近似值。它比现有的边推荐方法(包括一些旨在减少图极化的方法)更快地降低了结构偏差。

成为VIP会员查看完整内容
0
15

相关内容

网络搜索和数据挖掘国际会议(WSDM)是关于Web上的搜索和数据挖掘研究的主要会议之一。WSDM在Web和社会Web上发布与搜索和数据挖掘相关的原始的、高质量的论文,着重于搜索和数据挖掘实用而有原则的新模型、算法设计和分析、经济影响,以及对准确性和性能的深入实验分析。 官网地址:http://dblp.uni-trier.de/db/conf/wsdm/

【导读】人工智能顶会CCF-A类会议WWW2021今天论文出结果了,共有357篇论文接受,你的论文中了么

WWW 大会由万维网发明人、2016 年度图灵奖获得者 Tim Berners-Lee 于 1992 年发起并创办,是互联网系统与应用领域的顶级学术会议,也被列为《中国计算机学会推荐国际学术会议和期刊目录》中交叉 / 综合 / 新兴类的 A 类学术会议。

成为VIP会员查看完整内容
0
41

EMNLP 2020(2020 Conference on Empirical Methods in Natural Language Processing)将于2020年11月16日至20日以在线会议的形式举办。EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。

EMNLP 2020共收到有效投稿3114篇,录用754篇,录用率为24.82%。此外,因为高质量的论文越来越多超出了EMNLP会议本身所能容纳的范围,今年EMNLP新增了Findings of EMNLP这一子刊,它将接纳那些未被主会录用但是被程序委员会评价为值得出版的文章,此次Findings of EMNLP共接收了520篇文章。EMNLP 2020接收的论文覆盖了对话交互系统、信息抽取、信息检索和文档分析、词法语义、语言学理论、认知建模和心理语言学、用于NLP的机器学习、机器翻译与多语言、问答、句子级语义学、情感分析和论点挖掘、文本挖掘和NLP应用、文本推理等自然语言处理领域众多研究方向。

哈尔滨工业大学社会计算与信息检索研究中心有九篇长文被录用,其中四篇被主会录用,五篇被Findings of EMNLP子刊录用。下面是论文列表及介绍:

01

题目:Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection 作者:王少磊,王重元,车万翔,刘挺 录用类别:主会 简介:目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。有一些工作尝试用自监督方法(self-supervised)来缓解这个问题,但是他们的方法仍然依赖于有标注数据。在本工作中,我们首次尝试用无监督的方法来解决文本顺滑问题。我们通过结合自学习(self-training)和自监督两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。

02

题目:Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting 作者:陈三元,侯宇泰,崔一鸣,车万翔,刘挺,余翔湛 录用类别:主会 简介:深层预训练模型在“预训练+精调”模式中取得了巨大成功。但这种迁移学习方法通常会碰到“灾难性遗忘”问题并且会导致次优结果。为了在精调过程中减少“灾难性遗忘”问题,我们提出了一种“recall and learn”的方法来同时学习预训练任务和下游任务。具体地,我们提出了一种模拟预训练机制,在不使用数据的情况下回忆预训练任务所带来的知识;同时提出了一种目标转移机制来逐步学习下游任务。实验结果表明我们的方法可以在GLUE任务上获得state-of-the-art效果。同时,BERT-base在应用了我们的方法后能够超过直接精调BERT-large的效果。我们已经将RecAdam优化器进行开源:https://github.com/Sanyuan-Chen/RecAdam。

03

题目:Profile Consistency Identification for Open-domain Dialogue Agents 作者:宋皓宇,王琰,张伟男,赵正宇,刘挺,刘晓江 录用类别:主会 简介:保持一致的角色属性是对话系统自然地与人类进行交流的关键因素之一。现有的关于提高属性一致性的研究主要探索了如何将属性信息融合到对话回复中,但是很少有人研究如何理解、识别对话系统的回复与其属性之间的一致性关系。在这项工作中,为了研究如何识别开放域对话的属性一致性,我们构建了一个大规模的人工标注数据集KvPI,该数据集包含了超过11万组的单轮对话及其键值对属性信息。对话回复和键值对属性信息之间的一致性关系是通过人工进行标注的。在此基础上,我们提出了一个键值对结构信息增强的BERT模型来识别回复的属性一致性。该模型的准确率相较于强基线模型获得了显著的提高。更进一步,我们在两个下游任务上验证了属性一致性识别模型的效果。实验结果表明,属性一致性识别模型有助于提高开放域对话回复的一致性。

04

题目:Counterfactual Off-Policy Training for Neural Dialogue Generation 作者:朱庆福,张伟男,刘挺,William Wang 录用类别:主会 简介:开放域对话系统由于潜在回复数量过大而存在着训练数据不足的问题。我们在本文中提出了一种利用反事实推理来探索潜在回复的方法。给定现实中观测到的回复,反事实推理模型会自动推理:如果执行一个现实中未发生的替代策略会得到什么结果?这种后验推理得到的反事实回复相比随机合成的回复质量更高。在对抗训练框架下,使用反事实回复来训练模型将有助于探索潜在回复空间中奖励信号更高的区域。在DailyDialog数据集上的实验结果表明,我们的方法显著优于HRED模型和传统的对抗训练方法。

05

题目:A Compare Aggregate Transformer for Understanding Document-grounded Dialogue 作者:马龙轩,张伟男,孙润鑫,刘挺 录用类别:Findings of EMNLP 子刊 简介:基于文档的对话是指针对给定文档进行多轮对话。先前的工作主要关注如何利用对话历史筛选合适的文档信息,利用筛选出的信息生成对话回复。但对话历史不一定与当前对话完全相关。如果不区分历史对话和当前对话之间的相关性,将导致在生成回复时引入无关噪音。因此本文提出了一种"对比聚合"的Transformer结构,将对话历史进行降噪处理,并聚合文档信息以生成回复。在公开数据集CMU_DoG上的实验表明,我们提出的模型优于最新的基线模型。代码和数据将在Github中发布。

06

题目:Towards Fine-Grained Transfer: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling 作者:覃立波、徐啸、车万翔、刘挺 录用类别:Findings of EMNLP 子刊 简介:在现实世界中,用户在同一个话语中通常有多个意图。遗憾的是,大多数口语理解(SLU)模型要么主要集中于单一意图场景,要么简单地将所有意图信息整合到一个统一的向量去指导槽位填充,忽略了细粒度的多意图信息整合。在本文中,我们提出了一个自适应图交互框架(AGIF),用于联合多意图检测和槽位填充。AGIF通过引入意图-槽位的图交互层,来建模槽位和多意图之间的相关性。这种交互层能够自适应地应用于每个单词,可以自动为每个槽位分别捕获相关的意图信息,从而为单词级别的槽位填充进行细粒度的意图信息指导。实验结果表明,我们的方法不仅在两套多意图数据集上获得了SOTA结果,而且还在两个单意图的数据集上实现了更好的性能。

07

题目:Enhancing Content Planning for Table-to-Text Generation with Data Understanding and Verification 作者:龚恒,闭玮,冯骁骋,秦兵,刘晓江,刘挺 录用类别:Findings of EMNLP 子刊 简介:基于神经网络的表格到文本生成模型可以选择和排序重要数据,并通过surface realization阶段来流畅地用文字表达它们。分析已有工作的结果,当前模型的性能瓶颈在于内容规划阶段(从表格数据中选择和排序重要内容)。在surface realization阶段,如果将输入的标准的内容规划结果替换为模型预测的内容规划时,性能将急剧下降。在本文中,我们提出以下方法来增强基于神经网络的内容规划模块:(1)通过上下文数值表示来理解数据,将对数据进行比较的概念引入内容规划阶段;(2)通过策略梯度验证所选数据序列的重要性和顺序。 我们在ROTOWIRE和MLB两个数据集上评估了我们的模型。结果表明,在内容规划指标方面,我们的模型优于现有系统。

08

题目:CodeBERT: A Pre-Trained Model for Programming and Natural Languages 作者:冯掌印,郭达雅,唐都钰,段楠,冯骁骋,公明,寿林钧,秦兵,刘挺,姜大昕,周明 录用类别:Findings of EMNLP 子刊 简介:本文我们提出了一个叫做CodeBERT的双模态预训练模型,也是目前已知第一个适用于NL-PL(自然语言-编程语言)的预训练模型。CodeBERT通过学习一般性的表示来支持下游NL-PL相关的应用,比如自然语言代码检索,代码文档生成等。和目前大多数预训练模型类似,CodeBERT使用Transformer作为基本的网络结构。为了利用NL-PL对的双模数据和大量单模代码数据,我们采用了混合目标函数来训练CodeBERT,包括标准的掩码语言模型(MLM)和替换词检测(RTD)。实验结果表明,CodeBERT在下游的自然语言代码检索和代码文档生成任务上都取得了SOTA效果。为了进一步研究CodeBERT学到了哪些类型的知识,我们构造了第一个NL-PL的probing数据集,然后固定预训练好的参数来对模型进行检测。实验结果显示,CodeBERT比其它预训练模型在NL-PL的probing上表现更好。目前CodeBERT已开源:https://github.com/microsoft/CodeBERT。

09

题目:Revisiting Pre-Trained Models for Chinese Natural Language Processing 作者:崔一鸣,车万翔,刘挺,秦兵,王士进,胡国平 录用类别:Findings of EMNLP 子刊 简介:BERT及其相关变种预训练语言模型在众多自然语言处理任务中获得显著性能提升。在本文中,我们探究了这些模型在中文场景下的效果变现,并将相关模型进行开源。同时,我们也提出了一个简单有效的预训练语言模型MacBERT,并提出了MLM as correction (Mac) 预训练任务。我们在多个中文自然语言处理任务中评测了这些模型的效果,并且实验结果表明MacBERT在多个任务中达到了state-of-the-art效果。

成为VIP会员查看完整内容
0
28

【导读】WSDM 2020全称为第13届国际互联网搜索与数据挖掘会议(The 13thInternational Conference on Web Search and Data Mining, WSDM 2020),将于2020年2月3日-2月7日在美国休斯敦召开。WSDM是CCF推荐的B类国际学术会议,由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会协调筹办,在互联网搜索、数据挖掘领域享有较高学术声誉。这次会议共收到来自615篇长文投稿,仅有91篇长文被录用,录用率约15%。大会公布了最佳论文系列奖项,最佳论文由加利福尼亚大学圣克鲁兹分校(University of California, Santa Cruz,简称UCSC)获得-主轴的幂用于精确团计数,最佳论文亚军(Runner Up)论文由双曲度量学习由新加坡南洋理工获得-双曲度量学习。

最佳论文

主轴的幂用于精确团计数 原文标题:The Power of Pivoting for Exact Clique Counting

地址:http://arxiv.org/abs/2001.06784

作者:Shweta Jain, C. Seshadhri,University of California, Santa Cruz

摘要:集团计数是网络分析的基本任务,甚至 3个 -cliques(三角形)最简单的设置是最近许多研究的中心。获得ķ -cliques的数量较大ķ算法是具有挑战性的,由于大派系的搜索空间的指数爆破。但最近的一些应用程序(特别是对社区检测或群集)的使用更大的集团计数。此外,一个经常希望 textit 本地计数的k个 -cliques每顶点/边的数量。我们的主要结果是Pivoter,算法恰好计数的ķ -cliques数 textit对中的k 的所有值。这是在实践中出人意料地有效,并且能够得到的是超出以前的工作的覆盖面图的集团计数。例如,Pivoter获取社会网络的所有集团计数与商品机器的两个小时内一个100M的边。上一页并行算法不终止日。Pivoter也能切实得到当地每顶点和每边ķ -clique计数(所有ķ)的许多公共数据集的数以千万计的边。据我们所知,这是第一个算法,实现了这样的结果。主要见解是一个简洁的派树(SCT),其存储在输入图中的所有派系压缩唯一表示的结构。它使用一种被称为 textit 转动,由勒布朗 - Kerbosch经典的方法,以减少回溯算法的最大派系的递归树建。值得注意的是,SCT可在不实际枚举所有派系来构建,并提供从它的确切集团统计(ķ -clique计数,计数地方),可以有效地读出一个简洁的数据结构。

最佳论文亚军(Runner Up)论文

HyperML: A Boosting Metric Learning Approach in Hyperbolic Space for Recommender Systems Lucas Vinh Tran, Yi Tay (Nanyang Technological University, Singapore); Shuai Zhang (The University of New South Wales, Australia); Gao Cong (Nanyang Technological University, Singapore); Xiaoli Li (Institute for Infocomm Research, Singapore).

研究了非欧氏空间中学习用户和项目表示的概念。具体来说,我们通过探索Mobius回转向量空间来研究双曲空间中的度量学习与协作滤波之间的关系,该空间的形式可以用来推广最常见的欧氏向量运算。总的来说,这项工作旨在通过度量学习的方法来弥补推荐系统中欧几里德几何和双曲几何之间的差距。我们提出了HyperML(双曲度量学习),这是一个概念简单但效率很高的模型,可以提高性能。通过一系列广泛的实验,我们证明了我们提出的HyperML不仅优于欧几里德模型,而且在多个基准数据集上达到了最新的性能,证明了个性化推荐在双曲几何中的有效性。

https://dl.acm.org/doi/abs/10.1145/3336191.3371850

「经典论文奖」(Test of Time Award)

  1. Nick Craswell, Onno Zoeter, Michael J. Taylor, Bill Ramsey:

An experimental comparison of click position-bias models. WSDM 2008: 87-94

  1. Xiaowen Ding, Bing Liu, Philip S. Yu: A holistic lexicon-based approach to opinion mining. WSDM 2008: 231-240

  2. Jianshu Weng, Ee-Peng Lim, Jing Jiang, Qi He: TwitterRank: finding topic-sensitive influential twitterers. WSDM 2010: 261-270

成为VIP会员查看完整内容
0
24
小贴士
相关主题
相关论文
Diluka Loku Galappaththige,Dhanushka Kudathanthirige,Gayan Amarasuriya Aruma Baduge
0+阅读 · 4月13日
Chao Xu,Yiping Xie,Xijun Wang,Howard H. Yang,Dusit Niyato,Tony Q. S. Quek
0+阅读 · 4月13日
Kihoon Jang,Junwhan Kim,Byunggu Yu
0+阅读 · 4月12日
Alex Jones,Derry Tanti Wijaya
0+阅读 · 4月10日
Suyu Ge,Chuhan Wu,Fangzhao Wu,Tao Qi,Yongfeng Huang
19+阅读 · 2020年3月31日
Sambaran Bandyopadhyay,Lokesh N,M. N. Murty
5+阅读 · 2018年11月19日
Zhenpeng Chen,Sheng Shen,Ziniu Hu,Xuan Lu,Qiaozhu Mei,Xuanzhe Liu
6+阅读 · 2018年6月7日
Lei Zheng,Chun-Ta Lu,Lifang He,Sihong Xie,Vahid Noroozi,He Huang,Philip S. Yu
5+阅读 · 2018年5月18日
Hao Fang,Hao Cheng,Maarten Sap,Elizabeth Clark,Ari Holtzman,Yejin Choi,Noah A. Smith,Mari Ostendorf
5+阅读 · 2018年4月26日
Top