该栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。
本次推荐了关于推荐系统、情感分析、序列生成的三篇论文。
推荐组:SP
推荐人:李洋(研究方向:用户兴趣建模、意图挖掘、信息推荐)
论文题目:Neural Collaborative Filtering
作者:Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, Tat-Seng Chua
出处:WWW 2017
论文主要相关:推荐系统
简评:深度神经网络在语音识别,计算机视觉和自然语言处理方面都取得了巨大的成功,然而在推荐系统中的应用还比较少。以往的研究工作主要利用深度学习来对用户或被推荐项目进行特征表示,然后基于矩阵分解(Matrix Factorization)的内积运算对用户和被推荐项目的交互行为(interaction)进行建模。本论文利用深度神经网络解决推荐系统中的隐式反馈问题,作者提出使用神经网络代替内积对用户与被推荐项目的交互建模,并提出一个通用的基于神经网络的协同过滤框架NCF(Neural Collaborative Filtering)。作者证明矩阵分解(MF)可以被解释为NCF的特例,并且可以利用多层感知机来增强NCF的非线性建模能力。这篇文章的最大创新之处是建立了对偶的网络结构,对用户和物品两种交互方式进行建模,捕获用户和物品的非线性关系,打破了传统推荐方法基于内积的线性建模方式。此外,文中提出的框架具有极大的通用性,可以很方便的融合其他信息以提升推荐效果,例如用户评论等。
论文链接:
https://www.comp.nus.edu.sg/~xiangnan/papers/ncf.pdf
源代码链接:
https://github.com/hexiangnan/neural_collaborative_filtering
推荐组:SA
推荐人:袁建华(研究方向:情感分析)
论文题目:Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis
作者:Yi Tay, Luu Anh Tuan and Siu Cheung Hui
出处:AAAI 2018
论文主要相关:对象级情感分析
简评:在对象级情感分析任务中(Aspect-based Sentiment Analysis),对评论文本的表示进行建模时需要融合评价对象的信息。以往的方法通常将评价对象与评论文本每个词进行拼接,然后计算每个词的权重。受到全息规约表示(Holographic Reduced Representation)方法的启发,本文提出了一种基于循环卷积和循环相关操作(Circular Convolution and Circular Correlation)来刻画评论文本中的每个单词与评价对象之间的相关性,并用评论文本的加权求和表示进行情感分类。该方法在SemEval2014以及SemEval2015数据集上取得了目前最好的结果,相比之前的公开最优结果平均提高超过4%。本文的亮点在于使用了基于循环卷积和循环相关的两种操作来计算Attention权重。该方法可以进一步拓展到其他依赖Attention来度量相似性的方法上(例如Attention-over-Attention, Bi-Directional Attention Flow等)。
论文链接:
https://arxiv.org/abs/1712.05403
数据集链接:
https://github.com/vanzytay/ABSA_DevSplits
推荐组:TG
推荐人:龚恒(研究方向:文本生成)
论文题目:Sequential Copying Networks
作者:Qingyu Zhou, Nan Yang, Furu Wei, Ming Zhou
出处:AAAI 2018
论文主要相关:拷贝机制,生成式句子摘要,问题生成
简评:对于生成式句子摘要、问题生成等文本生成任务,在Encoder-Decoder模型上加入拷贝机制可以有效缓解训练或测试时存在低频词、未登录词带来的影响。该文章针对目前常见的词级别的拷贝机制在需要拷贝连续的多个词时可能出现错误拷贝的情况,提出了可以一次性拷贝多个连续的词的SeqCopyNet。与词级别的拷贝机制相比,该模型在拷贝的时候,采用了基于Pointer Network的方法来预测拷贝的起始点和终止点,从而一次性的拷贝一段连续内容。相比目前的基于单个词的拷贝模型,这篇文章将问题转化为对于拷贝范围的预测,可以较好的解决拷贝多个词的场景下漏拷贝的情况。针对Gigaword数据集,作者还构建了新的测试集合,以解决之前论文采用的测试集合将低频词直接用UNK代替的问题。作者提出的SeqCopyNet模型在Gigaword(生成式句子摘要)和SQuAD(基于该数据集构建的问题生成数据集)上均有性能提升。
Poster链接:
https://res.qyzhou.me/AAAI2018_poster.pdf
数据集链接:
https://res.qyzhou.me/SeqCopyNet_SentSumm.zip
往期链接:
赛尔推荐 | 第4期
(自动文摘技术、自动文摘评价、自然语言推理、阅读理解、文本风格迁移)
赛尔推荐 | 第3期
(多任务学习、文本分类、阅读理解、特征选择、知识融合、图像标注)
赛尔推荐 | 第2期
(对话系统自动评价,优化器,复述生成,问答系统)
赛尔推荐 | 第1期
(词向量,情感分析,循环神经网络,sequence-to-sequence模型、选择机制和摘要生成)
赛尔推荐 | 第0期
(人机对话,神经网络模型,知识工程,自然语言推理,基于文档集的问答,sequence-to-sequence模型,预测的可解释性和机器翻译)
本期责任编辑: 张伟男
本期编辑: HFL编辑部
“哈工大SCIR”公众号
主编:车万翔
副主编: 张伟男,丁效
责任编辑: 张伟男,丁效,赵森栋,刘一佳
编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波,孙卓
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。