该栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。
本次推荐了最新发布的NAACL 2018 Outstanding Paper中关于词向量和RNN计算复杂性的两篇论文以及两篇关于事件检测、推敲网络、编码器-解码器和序列生成的其他顶会论文。
1
推荐组:LA
推荐人:刘一佳(研究方向:句法分析,语义分析)
论文题目:Deep contextualized word representations
作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
论文主要相关:词向量
简评:词向量(Word embedding)已经成为神经网络时代NLP任务的基石。然而,众所周知,随着上下文环境不同,词的句法语义功能会发生明显变化。采用与Word2vec类似的方式给每个词以固定的向量表示似乎不是最佳实践。直观上更好的表示方式是:将词进行向量化的模块接受一个词以及他的上下文,输出对应考虑上下文(contextualized)的词向量。这篇文章关注的就是如何构建这样一个模块。文章提出了一种考虑上下文建模词向量的模型--ELMo。ELMo采用双层双向LSTM建模这种考虑上下文的词向量。它接受输入句子并将LSTM的在每个词上的各层隐层输出作为对应词向量。ELMo的训练过程与一般语言模型相似,在使用时需要对各层输出进行加权。更多细节请参考原文论文。
ELMo虽然看起来很简单,非常有效。但在本文6项句法语义实验中,使用ELMo显著提高了强基线模型的性能,取得了相对值5%到25%的提升。除了ELMo模型方面的贡献,本文也详细分析了ELMo的获得的词向量。比较有趣的结论是:ELMo的第一层输出包含更多的句法信息,而第二层输出包含更多语义信息。具体论证方法也请参考原文。
在刚刚公布的NAACL 2018 Outstanding Paper的评选中,这篇研究上下文相关词向量的工作脱颖而出,获得了Outstanding Paper。推荐者认为,这篇文章获得好评的原因在于:1. 简单有效的方法;2. 扎实的实验结果;3. 有趣的分析。
末了,推荐者想将ELMo与多任务学习建立联系。ELMo可以视作是在单一任务的学习目标中加入一个额外的语言模型学习目标。事实证明,这种学习目标可以有效提高模型的泛化能力。更进一步,我们能不能使用跨任务数据(比如句法或者语义数据)或者跨语言数据(比如多语语言模型)作为这种额外目标。他们又会给传统单一任务学习带来怎样的变化呢,期待有后续工作从这个方向跟进。
论文链接:
https://arxiv.org/pdf/1802.05365.pdf
源代码链接:
2
推荐组:LA、RC
作者:Yining Chen, Sorcha Gilroy, Andreas Maletti, Jonathan May, Kevin Knight
论文主要相关:RNN、计算复杂性
https://arxiv.org/abs/1711.05408
3
作者:Jian Liu, Yubo Chen, Kang Liu, Jun Zhao
出处:AAAI 2018
4
论文题目:Deliberation Networks: Sequence Generation Beyond One-Pass Decoding
论文作者:Yingce Xia, Fei Tian, Lijun Wu, Jianxin Lin, Tao Qin, Nenghai Yu, Tie-Yan Liu
出处:NIPS 2017
论文主要相关:推敲网络、编码器和解码器、序列生成
简评:现有的encoder-decoder框架在生成序列的时候仅能利用已经生成的词信息,却无法使用未生成的词信息,然而这并不符合人的认知过程。人在写文章时,往往会先写出一版草稿,然后基于对全局信息的理解和思考,在此基础上对草稿进行修改和润色,从而写出最后的佳作。基于以上过程,作者提出了推敲网络。推敲网络与现有encoder-decoder相比,多了一次解码的过程,整个网络包含一个encoder(E)和两个decoder(D1和D2)。网络执行流程如下:E对源端信息进行编码,D1基于编码信息按照普通decoder的解码方式进行初次解码,得到一个草稿。然后D2利用源端编码和D1生成的草稿再次解码得到最终较好的生成序列。在WMT2014英法机器翻译任务和Gigaword文摘任务上的实验结果表明,推敲网络确实能够生成更好的文本序列。其中,机器翻译任务上实现了state-of-the-art效果,BLEU值达到了41.5。基于人的认知过程,作者提出了推敲网络,想法虽然不复杂,但是却让神经网络更加真实,思考问题的方式值得借鉴。
论文链接:
https://www.microsoft.com/en-us/research/wp-content/uploads/2017/12/6775-deliberation-networks-sequence-generation-beyond-one-pass-decoding.pdf
往期链接:
点击文末“阅读原文”即可查看完整赛尔推荐目录
(语言模型、对话生成、情感因素、任务型对话、用户模拟、问答系统)
(推荐系统、情感分析、序列生成)
(自动文摘技术、自动文摘评价、自然语言推理、阅读理解和文本风格迁移)
(多任务学习、文本分类、阅读理解、特征选择、知识融合、图像标注)
本期责任编辑: 丁 效
本期编辑: 刘元兴
“哈工大SCIR”公众号
主编:车万翔
副主编: 张伟男,丁效
责任编辑: 张伟男,丁效,赵森栋,刘一佳
编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波,孙卓
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。