赛尔推荐 | 第12期

2018 年 5 月 2 日 哈工大SCIR 哈工大SCIR

本栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。


本次推荐了关于信息检索、生成式摘要、开放域问答的三篇论文。



1



推荐组:CR

推荐人刘元兴(研究方向:推荐)

论文题目:IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models

作者:Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu, Benyou Wang, Peng Zhang, Dell Zhang 

出处:SIGIR 2017 (Best Paper Award Honorable Mention)

论文主要相关:信息检索

简评:在现代信息检索领域中主要存在两种思维流派。经典思维流派假设在文档和信息需求(由查询可知)之间存在着一个独立的随机生成过程。而现代思维流派则充分利用机器学习的优势,将文档和搜索词联合考虑为特征,并从大量训练数据中预测其相关性或排序顺序标签。本篇论文首次提出将两种思维流派的数据模型通过一种对抗训练的方式统一在一起,使得两方面的模型能够相互提高,最终使得检索到的文档更加精准。与传统的GAN不同,IRGAN直接将 Query 做输入,利用 Generative和Discriminative IR Models分别作为GAN的生成器(generator)和判别器(discriminator)。除此之外,为了应对离散的数据,作者引入了强化学习的Policy Gradient代替常用的SGD方法,使得 GAN 更具有推广意义。文章的实验分别在网络搜索、推荐系统以及问答系统三个应用场景中实现并验证了IRGAN的优越性。

论文链接:

https://dl.acm.org/citation.cfm?doid=3077136.3080786

源代码链接:

https://github.com/geek-ai/irgan



2



推荐组LA 

推荐人:赵怀鹏(研究方向:抽取式摘要、中文顺滑)

论文题目:A Deep Reinforced Model for Abstractive Summarization

作者:Romain Paulus, Caiming Xiong, Richard Socher

出处:ICLR 2018

论文主要相关:生成式摘要,强化学习

简评:近些年,seq2seq框架在生成式摘要任务上得到了广泛的应用。这些模型在生成比较短的摘要时能够取得较好的效果,但在生成长句子摘要时会产生重复和不连贯的短语。产生这种现象的主要原因是单纯采用有监督训练会产生“exposure bias”。为此,作者提出了一个新的摘要模型来解决上述问题。本文的主要贡献有两点:①采用了Intra-temporal attention和Intra-decoder attention两种Attention机制能够避免生成重复内容,同时也能够使得生成的信息覆盖原文内容。②仅使用有监督学习来拟合真实摘要会导致训练和测试的不一致性。因此在目标函数中引入了强化学习,将评价指标ROUGE作为其reward,然后根据reward对模型进行奖励和惩罚并更新参数。本文提出的新模型在CNN/DailyMail和NYT数据集上均达到了SOTA的结果。

论文链接:

https://arxiv.org/pdf/1705.04304.pdf



3



推荐组QA

推荐人:齐乐(研究方向:问答系统)

论文题目:R3: Reinforced Ranker-Reader for Open-Domain Question Answering

作者:Shuohang Wang, Mo Yu, Xiaoxiao Guo, Zhiguo Wang, Tim Klinger, Wei  Zhang, Shiyu Chang, Gerald Tesauro, Bowen Zhou, Jing Jiang

出处: AAAI 2018

论文主要相关:开放域问答

简评:由于开放域问答系统需要从大规模语料中抽取答案,因此现今的系统往往由两个模块组成:信息检索(IR)模块和阅读理解(RC)模块。前者从大规模语料中抽取相关的段落,后者则从相关段落中进一步抽取答案。本文在其基础上,提出了一种新的端到端的问答系统框架,称为增强型排序-阅读模型(Reinforced Ranker-Reader, R3)。该框架包含两个模块Ranker和Reader,其中Ranker根据段落包含答案的可能性对检索到的段落进行排序,并选择最有可能包含答案的段落,将其传递给Reader;Reader则从相关段落中抽取答案。最值得一提的是该框架利用强化学习,联合训练Ranker和Reader,将两部分有机地结合起来,同时对两者进行优化和训练,而非将两部分作为独立的模型进行单独训练。本文在多个开放域问答数据集上进行了实验,并达到了state-of-the-art的结果。

论文链接:

https://arxiv.org/abs/1709.00023



往期链接:

点击文末“阅读原文”即可查看完整赛尔推荐目录

赛尔推荐 | 第11期

(句子表示学习、描述生成、迁移学习)

赛尔推荐 | 第10期

(自然答案生成、问句重新表述和问答系统)

赛尔推荐 | 第9期

(事件抽取、image caption、对象级情感分析)

赛尔推荐 | 第8期

(自然语言推理、文本蕴含识别、句子表示、文本摘要、序列标注、数据稀疏、多任务学习)



本期责任编辑:  张伟男

本期编辑:  崔一鸣



“哈工大SCIR”公众号

主编:车万翔

副主编: 张伟男,丁效

责任编辑: 张伟男,丁效,赵森栋,刘一佳

编辑: 李家琦,赵得志,赵怀鹏,吴洋,刘元兴,蔡碧波,孙卓


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。

登录查看更多
4

相关内容

信息检索( Information Retrieval )指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索的目标:准确、及时、全面的获取所需信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
57+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
68+阅读 · 2020年4月7日
专知会员服务
85+阅读 · 2020年1月20日
可解释推荐:综述与新视角
专知会员服务
108+阅读 · 2019年10月13日
赛尔推荐 | 第22期
哈工大SCIR
6+阅读 · 2018年6月6日
赛尔推荐 | 第21期
哈工大SCIR
4+阅读 · 2018年6月1日
赛尔推荐 | 第20期
哈工大SCIR
4+阅读 · 2018年5月30日
赛尔推荐 | 第17期
哈工大SCIR
8+阅读 · 2018年5月18日
赛尔推荐 | 第14期
哈工大SCIR
3+阅读 · 2018年5月9日
赛尔推荐 | 第13期
哈工大SCIR
5+阅读 · 2018年5月4日
赛尔推荐 | 第9期
哈工大SCIR
13+阅读 · 2018年4月20日
赛尔推荐 | 第5期
哈工大SCIR
13+阅读 · 2018年4月4日
赛尔推荐 | 第4期
哈工大SCIR
7+阅读 · 2018年3月30日
赛尔推荐 | 第3期
哈工大SCIR
7+阅读 · 2018年3月28日
Arxiv
8+阅读 · 2019年5月20日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
7+阅读 · 2018年1月31日
VIP会员
相关VIP内容
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
57+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
68+阅读 · 2020年4月7日
专知会员服务
85+阅读 · 2020年1月20日
可解释推荐:综述与新视角
专知会员服务
108+阅读 · 2019年10月13日
相关资讯
赛尔推荐 | 第22期
哈工大SCIR
6+阅读 · 2018年6月6日
赛尔推荐 | 第21期
哈工大SCIR
4+阅读 · 2018年6月1日
赛尔推荐 | 第20期
哈工大SCIR
4+阅读 · 2018年5月30日
赛尔推荐 | 第17期
哈工大SCIR
8+阅读 · 2018年5月18日
赛尔推荐 | 第14期
哈工大SCIR
3+阅读 · 2018年5月9日
赛尔推荐 | 第13期
哈工大SCIR
5+阅读 · 2018年5月4日
赛尔推荐 | 第9期
哈工大SCIR
13+阅读 · 2018年4月20日
赛尔推荐 | 第5期
哈工大SCIR
13+阅读 · 2018年4月4日
赛尔推荐 | 第4期
哈工大SCIR
7+阅读 · 2018年3月30日
赛尔推荐 | 第3期
哈工大SCIR
7+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员