赛尔推荐 | 第19期

会员服务 ·

赛尔推荐 | 第19期

2018 年 5 月 25 日 哈工大SCIR

本栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了三篇关于注意力机制、阅读理解、LSTM、文本表示和Bag-of-Words的论文。

推荐组：SA

推荐人：傅科达（研究方向：情感分析）

论文题目：Bi-directional Attention Flow for Machine Comprehension

作者：Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hananneh Hajishirzi

出处： ICLR 2017

论文主要相关：注意力机制、阅读理解

简评：1.背景：机器阅读理解任务中最为重要的是问题和文本的关系。传统Attention机制主要单向地（从问题到文本）建模了文本中每个词与问题的重要程度。词表示与重要程度加权求和获得最终定长表示，损失了词顺序信息。本文提出了一个双向（从问题到文本，从文本到问题）attention模型，对采用不同粒度表示的文本相对问题的重要程度进行建模。由于这种模型对文本逐词地求算与问题相关的attention，所以不会损失词序信息。

2.方法：对问题和文本从字符粒度，词粒度上进行embedding，并对文本，问题进行全局信息的提取，对两个序列分别过双向LSTM，得到每个词的隐层向量。Attention层主要是对文本和问题的信息连接和融合，需要计算2个序列的attention。将上一层得到输出过一个双向LSTM。最后一层的输出层是从文本中找到正确答案的位置，定义两个输出，分别标识正确答案的头和尾。本文的重点也是在这一层，从Attention层得到的输出，再次作用在了output layer上，将重要的attention信息在输出层再次进行监督。

3.结果：本文模型比大部分模型结果要好，和R-net结果接近，他使用的Attention机制是动态的，且对于每一层都是自适应的。本文的attention flow机制，主要是针对大部分结构中对attention机制早早的进行了整合，没有充分利用整个矩阵的信息。

论文链接：

https://arxiv.org/pdf/1611.01603.pdf

源代码链接：

https://github.com/allenai/bi-att-flow

Demo链接：

https://allenai.github.io/bi-att-flow/

推荐组：SP

推荐人：段俊文（研究方向：智能金融，文本挖掘）

论文题目：Sentence-State LSTM for Text Representation

作者：Yue Zhang, Qi Liu and Linfeng Song

出处： ACL 2018

论文主要相关：LSTM、文本表示

简评：双向长短期记忆神经网络（Bi-LSTM）是文本表示的一个非常强大的工具，但是它也存在明显的不足。例如，当前的隐层状态的计算依赖之前状态，这极大地限制了模型的并行计算效率。为了解决这个问题，本文提出了一种Sentence-State LSTM模型。与LSTM进行循环操作时一次处理一个词不同的是，Sentence-State LSTM每一步都对所有词的隐含状态进行建模。模型将整个句子表示成一个状态，该状态由每个词的状态以及一个全局句子级状态组成, 并通过循环操作进行更新。不同的是，传统LSTM需要句子长度次的循环操作，而Sentence-State LSTM只需要3~6次循环操作就能取得较好的效果。同时在每次循环操作内部，各个词也会与周围词进行信息交互，以获取局部的信息。在文本分类以及序列标注上的实验结果表明，在使用相同数量的参数时，本文的模型准确率更高，且效率更快。本文的主要亮点在于，每次循环操作对句中所有词进行建模，这样更快地获取全局的信息，减少循环次数，从而提高模型效率。

论文链接：

https://arxiv.org/pdf/1805.02474.pdf

源代码链接：

https://github.com/leuchine/S-LSTM

推荐组： TG

推荐人：耿昕伟（研究方向：文本生成、机器翻译）

论文题目：Bag-of-Words as Target for Neural Machine Translation

作者：Shuming Ma, Xu Sun, Yizhong Wang , Junyang Lin

出处： ACL 2018

论文主要相关： Bag-of-Words

简评：针对一个句子来说，其可能存在多个正确的翻译。但是现在的神经机器翻译模型只能使用训练集中提供的正确翻译进行训练，而其他的翻译由于没有出现在训练集中，因此无法对其正误进行判断，在训练过程中只能当作不正确的翻译。而通过分析发现，同一个句子的多个翻译有相似的bag-of-words，基于此，本文提出一种方法，在使用训练集中翻译作为训练目标的基础上，其额外引入bag-of-word作为训练目标。实验结果显示，相比RNNSearch方法，该方法在中英机器翻译任务上取得4.55 BLEU的提升。

论文链接：

https://arxiv.org/pdf/1805.04871.pdf

源代码链接：

https://github.com/ lancopku/bag-of-words

往期链接：

点击文末“阅读原文”即可查看完整赛尔推荐目录

赛尔推荐 | 第18期

（任务型对话系统评价、用户模拟框架、训练损失平滑、语言模型、阅读理解、文本风格迁移）

赛尔推荐 | 第17期

（情感分析、胶囊网络、Beam search、文本生成、生成式文档摘要和层次化注意力机制模型）

赛尔推荐 | 第16期

（机器翻译、自然语言生成、复述生成、语义分析）

赛尔推荐 | 第15期

（情感生成、情感分析、迁移学习、机器翻译双向解码）

本期责任编辑：刘一佳

本期编辑：刘元兴

“哈工大SCIR”公众号

主编：车万翔

副主编：张伟男，丁效

责任编辑：张伟男，丁效，赵森栋，刘一佳

编辑：李家琦，赵得志，赵怀鹏，吴洋，刘元兴，蔡碧波，孙卓

长按下图并点击 “识别图中二维码”，即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号：”哈工大SCIR” 。

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

近期必读的五篇顶会 ACL 2020【图神经网络 (GNN) 】相关论文

专知会员服务

105+阅读 · 2020年6月9日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2

专知会员服务

70+阅读 · 2020年4月7日