赛尔推荐 | 第22期

会员服务 ·

赛尔推荐 | 第22期

2018 年 6 月 6 日 哈工大SCIR

本栏目每周将推荐若干篇由师生精心挑选的前沿论文，分周三、周五两次推送。

本次推荐了四篇关于深度强化学习、对话状态跟踪、任务型对话、机器阅读理解和问答系统的论文。

推荐组：CR

推荐人：宋皓宇（研究方向：人机对话，自然语言处理）

论文题目： Deep Reinforcement Learning that Matters

作者：Peter Henderson, Riashat Islam, Philip Bachman, Joelle Pineau, Doina Precup, David Meger

出处：AAAI 2018

论文主要相关：深度强化学习

简评：近年来深度强化学习在诸多领域都得到了成功的应用。然而，深度强化学习算法缺少有效的评价指标，这导致了复现与深度强化学习相关的论文实验结果很困难，后续工作在此基础上进行的对比甚至可能毫无意义。该论文利用标准的强化学习评测环境OpenAI Gym，对目前主流的深度强化学习算法进行了一系列的定量实验，探讨了到底哪些因素对于深度强化学习算法真正重要，对于深度强化学习算法的使用者有着启发意义。该论文的实验十分充分，最后附带了18页的补充材料用以展示相关实验结果。

论文链接：

https://arxiv.org/pdf/1709.06560.pdf

推荐组：LA

推荐人：文灏洋（研究方向：对话系统）

论文题目：An End-to-end Approach for Handling Unknown Slot Values in Dialogue State Tracking

作者： Puyang Xu, Qi Hu

出处：ACL 2018

论文主要相关：对话状态跟踪、任务型对话

简评：本文讨论了一个在之前的对话状态跟踪任务中很少讨论的问题——如何在对话状态跟踪时处理未登录的槽值。在之前的相关工作中，基本都假设对话具有有预定义的槽以及槽对应的值的集合，这样一个对话状态可以表示为对每一个槽，算出其对应的值的概率分布的形式。但事实上在真实对话中，一些值（如数值、地点等）是很难表示为一个固定的集合的。所以处理这个问题，对于任务型对话系统的整体性能提升有着重要的意义。本文以将对话历史依次连接为一个完整的序列作为输入，借助Pointer Network的形式，对每一个槽，计算算出前后两个指针的位置，将两指针夹住的词组当做该槽在当前状态中对应的值。对于在句子中难以表达出来的值（如dontcare），利用在句子表示上训练的分类器来对其分类。从某种角度来说，使用指针的思路很像是在槽填充（slot filling）任务中，对某一个槽值打上的一系列标签，所以这种方式也很像是端到端地在对话状态跟踪中融入槽填充方法。论文还讨论了训练中出现的特征协同适应（feature co-adaption）问题。即模型可能通过训练记住槽值，而不是训练出依据上下文信息推断出某处为槽值的能力。论文通过利用一个预定义值词典，随机将输入的句子中出现的词的词向量替换为0，来提高模型识别上下文信息的能力。模型在DSTC2上取得了很好的结果，通过对比实验也充分展现出其处理未登录词的能力。

论文链接：

https://arxiv.org/pdf/1805.01555.pdf

推荐组：QA

推荐人：妥明翔（研究方向：深度问答）

论文题目：Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification

作者：Yizhong Wang, Kai Liu, Jing Liu, Wei He, Yajuan Lyu

出处：ACL 2018

论文主要相关：机器阅读理解、问答系统

简评：问答系统主要通过分析搜索引擎返回的相关文档，生成一个问题的最终答案。典型问答系统评测任务如SQuAD，每个问题给定的相关文档都只有一篇，而且相对较短。而实际情况中搜索引擎返回的相关文档都不止一篇而且篇幅较大，微软的英文数据集MS-MARCO和百度的中文数据集DuReader都是一个问题对应多个相关文档，因此更符合实际应用场景。该文章就是基于这两个评测任务进行的研究，提出了一种端到端的跨篇章答案验证的机器阅读理解模型。模型分为三部分：答案边界预测，答案内容建模，跨篇章答案验证。答案边界预测使用微软在SQuAD上使用的R-net模型，对每一个相关文档生成答案，这样就得到了多个答案。答案内容建模基于概率模型生成每个答案的表示，这些表示主要用于跨篇章答案验证。跨篇章答案验证通过attention机制，整合所有生成的候选答案的信息，计算出每个答案的得分，以选出最佳答案。训练过程是通过最小化三个部分损失函数的和进行联合训练。该模型在MS-MARCO和DuReader上都达到了state-of-art的结果。

论文链接：

https://arxiv.org/pdf/1805.02220.pdf

推荐组：RC

推荐人：朱海潮（研究方向：篇章分析、问答）

论文题目：Efficient and Robust Question Answering from Minimal Context over Documents

作者：Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong

出处：ACL2018

论文主要相关：问答

简评：现有的基于神经网络的机器阅读理解模型取得了非常显著的成功，在某些评测语料上取得与人类相当的结果，但同时由于这些模型需要建模原文和问题之间复杂的交互，导致这些模型难以扩展到更长的文本上，如TriviaQA数据集中的原文。而且有工作发现在不影响回答问题的前提下对原文进行简单的替换、插入随机内容等修改，会使回答的正确性急剧下降，说明模型的鲁棒性不足。而且，论文作者发现大多数问题仅通过原文中少数几个句子就可以回答。

　　基于以上的观察，本文提出使用简单的句子选择器来选择用于回答问题的最少句子集合，替代完整原文作为问答模型的输入。以DCN+和S-Reader两个十分有效的问答模型为基础进行实验，结果表明以精简的上下文作为输入，在SQuAD、NewsQA、TriviaQA、SQuAD-Open等数据集上取得与以完整上下文为输入相当甚至更好的结果。同时，在SQuAD-Adversarial上取得了远超之前模型的结果，证明这种方法在不改变模型结构的前提下，很好的提高了系统的鲁棒性。论文的分析和实验也是非常值得学习和借鉴的。同时本文不同于一般的对模型结构进行修改的阅读理解论文，从一个独特的角度来研究、分析阅读理解任务。

论文链接：

https://arxiv.org/abs/1805.08092

往期链接：

点击文末“阅读原文”即可查看完整赛尔推荐目录

赛尔推荐 | 第21期

（文本摘要、情感分类、图结构数据、自然语言处理、bAbI任务、机器翻译）

赛尔推荐 | 第20期

（自动文摘、问题生成、文本简化、实体关系抽取）

赛尔推荐 | 第19期

（注意力机制、阅读理解、LSTM、文本表示、Bag-of-Words）

赛尔推荐 | 第18期

（任务型对话系统评价、用户模拟框架、训练损失平滑、语言模型、阅读理解、文本风格迁移）