【导读】刚刚在北京举行落幕的信息检索顶会 ACM CIKM 2019 上,来自以色列的研究者获得了最佳论文奖项,阿里巴巴获最佳应用论文奖,最佳 Demo 奖则颁给了 IBM 的研究者。
ACM CIKM 全称为(ACM International Conference on Information and Knowledge Management),是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。自 1992 年首次举办以来,它已经在全球的 8 个国家举行过 27 次会议,今年的大会是 CIKM 第二次来到中国。
CIKM 2019 论文奖项分为三个:最佳研究论文、最佳应用论文与最佳 Demo。
最佳研究论文由来自以色列内盖夫本-古里安大学的 Noy Cohen 等人获得。
论文链接:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf
摘要:近来,非机器学习人士也希望能够使用相关的算法进行应用。其中一个主要的挑战是,他们需要选择算法并用它来解决问题。如果能够选择正确的算法,在给定数据集、任务和评价方法的情况下可以使算法得到很好的效果。
本文中,研究者提出了一个名为 AutoGRD 的算法,这是一种新颖的元学习算法,用于算法推荐。AutoGRD 首先将数据表示为图,并将其隐式表示提取出来。提取出来的表示会被用来训练一个排序元模型,这个模型能够精确地对未见数据集提供表现最好的算法。研究者将这一算法在 250 个数据集上进行了测试,在分类和回归任务上都表现出了很高的性能,而且 AutoGRD 比现有的元学习 SOTA 模型和贝叶斯算法表现得都要好。
最佳研究论文第二名由北大、微软研究院和阿里巴巴的研究者获得。
论文链接:http://www.cikm2019.net/attachments/papers/p409-longA.pdf
摘要:为了描述现实世界无处不在的关系数据,网络数据已经广泛应用于复杂关系的建模中。因此,将顶点(vertice)映射到低维空间(即网络嵌入)适用于各种各样的预测任务。大量的研究利用了成对接近性(pairwise proximity),这是真实网络具有的特性。聚类性,即顶点倾向于形成各种规模的社区——由此形成一个囊括不同社区的层级结构,则是另一种属性。这类研究却没有引起研究者的关注。
在本文中,研究者提出了一种子空间网络嵌入框架(Subspace Network Embedding,SpaceNE),该框架保留了社区通过子空间形成的层级结构,并具有灵活的维数以及固有的层次结构,并且本质上是层次结构。此外,他们提出子空间能够解决表征层级社区的更多问题,包括稀疏性和空间扭曲。
最后,研究者提出了要降噪的子空间维数的约束条件,这些约束条件通过可微分函数进一步逼近,从而使联合优化成为可能。与此同时,他们还采用了逐层方案来减少由参数过度引起的开销。研究者进行了各种实验,结果证明了 SpaceNE 模型在解决社区层级结构方面是有效的。
最佳应用论文作者来自阿里巴巴。
论文链接:https://arxiv.org/pdf/1908.10679.pdf
摘要:购物网站上的评论会影响到用户的购买决定,同时还会吸引到大批致力于误导买家的垃圾评论。二手商品交易网站闲鱼就饱受垃圾评论困扰。闲鱼的反垃圾评论系统面临两大挑战:数据的可扩展性以及垃圾评论者的敌对行为。
在这篇论文中,阿里的研究者提出了这些挑战的应对方案。他们提出了一个基于图卷积网络(GCN)的大规模反垃圾评论方法——GAS,用于检测闲鱼上的垃圾广告。这个模型结合了异构图和同构图来捕获内容的本地上下文和全局上下文。离线实验表明,他们提出的方法优于利用评论信息、用户特征和被浏览商品信息的基线方法。此外,他们还将模型部署在了闲鱼上,每天处理上百万的数据。在线性能也证明了模型的有效性。
最佳 Demo 奖项颁给了 IBM 的研究者。
论文链接:https://arxiv.org/abs/1909.01606
摘要:深度学习(DL)模型正变得无处不在,但大多数软件开发者并非深度学习专家,因此很难用上蓬勃发展的 DL 模型。TensorFlow、pyTorch 等各种不兼容的 DL 编程框架的普遍使用使得这一情况变得更加糟糕。
为了解决这一问题,IBM 的研究者提出了一种名为 Model Asset Exchange(MAE)的系统,使得开发人员可以方便地利用当前最新的 DL 模型。无论底层的 DL 编程框架是什么,该模型都能提供一个开源的 Python 库(MAX 框架),该库封装 DL 模型,并使用标准化的 RESTful API 统一编程接口。这些 RESTful API 使得开发者能够在推理任务中利用封装的 DL 模型,无需完全理解不同的 DL 编程框架。利用 MAX,研究者封装并开源了来自不同研究领域的 30 多个 SOTA DL 模型,包括计算机视觉、自然语言处理和信号处理等。
参考链接:
https://www.jiqizhixin.com/articles/2019-11-06-8