➊
#Language Generation#
Deep Keyphrase Generation
关键短语(Keyphrase)提供了高度总结的信息可以应用于理解,组织和检索文本。之前的研究提供了一些方法来自动提取关键短语,这些方法通常会将待归纳的文本分割成文本块(text chunks),然后再排名和选择最有意义那些。但是这些方法无法提取没有在文本中出现的关键短语,也不能很有效地捕捉文本背后的真实语义。这篇文章使用编码器 - 解码器框架(encoder-decoder framework)提出了一个关键短语的生成模型,可以克服上述缺点。在模型评价部分,这篇文章在六个数据集测试了他们提出的模型,实现了显着的性能提升,而且模型也可以基于文本语义(semantic meaning)生成源文本中没有出现的关键短语。
这篇文章使用了一个很有意思的方法叫复制机制(Copying Mechanism)。为了控制词汇表的大小,绝大多数 RNN 的模型都会只考虑一定数量的频繁词汇(比如 30000 个单词),这篇文章为了生成包含 out-of-vocabulary 词汇的关键短语,使用了复制机制(Copying Mechanism)。类似于注意机制(attention mechanism),复制机制加权考虑了每个单词在源文本中的重要性。所以源文本中的罕见词仍然有可能被复制进关键短语中。
本文工作已被 ACL 2017 接收,本文代码也已开源。
论文链接:https://arxiv.org/abs/1704.06879
相关代码:
https://github.com/memray/seq2seq-keyphrase
推荐人:
姚文林,Texas A&M University(PaperWeekly arXiv 打卡小组)
➋
#GAN#
CAN: Creative Adversarial Networks Generating “Art” by Learning About Styles and Deviating from Style Norms
如何生成具有美学特征且具有创新性的作品,是风格转换类算法核心问题,也是最具有挑战的部分。本论文就是围绕这个问题展开,本论文的目标是调研在创造过程中不需人干预的能够创造新的艺术品的计算机系统。
本论文基出两个心理学或美学论点,首先是 Martindale 对创造性艺术品产生过程的解释: 创造性的艺术家通过增加艺术品的激励潜力(arousal potential)来对抗常规潜力,但是激励潜力应该努力减少观察者的负面反应;艺术家在艺术风格使用其它的方式时会增加艺术品的激励潜力,从而产生了突破性的艺术风格;其次是,D. E. Berlyne 认为心理学上的美学跟激励很相关,跟美学特征相关的激励主要有:novelty,surprisingness,complexity,ambiguity 和 puzzlingness;因此,并通过增加潜在激励潜力提升创新性而让其不拘于原始风格,新颖但并不过于新颖,来构建能够生成创造性的且具有美学特征的作品的计算机系统。
论文链接:https://arxiv.org/abs/1706.07068
推荐人:罗玄,北京邮电大学(PaperWeekly arXiv 打卡小组)
➌
#对话系统#
Generative Encoder-Decoder Models for Task-Oriented Spoken Dialog Systems with Chatting Capability
本文给出了一个特定领域对话系统的端到端解决方案,包括用 entity indexing 来解决对话生成时的 OOV 问题,也包括从外部数据库中获取到知识并融合到生成的对话中,对工程实现有一定的启发。
本文已被 SIGIDIAL 2017 录用。
论文链接:http://cn.arxiv.org/abs/1706.08476
推荐人:大俊,PaperWeekly 首席客服
➍
#对话系统#
Deal or No Deal? End-to-End Learning for Negotiation Dialogues
本文研究了对话中的辩论问题,在使用增强学习的基础上使用了对话轮转策略训练 seq2seq 模型。论文对应的源码和数据都已公开。
本文可能是第一个会使用欺骗策略和让步策略的对话模型。作者来自 Facebook Research AI。
论文链接:https://arxiv.org/abs/1706.05125v1
数据和源码:
https://github.com/facebookresearch/end-to-end-negotiator
推荐人:Chuan Young,北京航空航天大学(PaperWeekly arXiv 志愿者)
➎
#文本分类#
Generative and Discriminative Text Classification with Recurrent Neural Networks (2017)
本文来自 DeepMind,比较了生成模型和判别模型在文本分类上的表现。
2001 年的一篇研究文章表明“线性的”判别模型对比对应的生成模型,具有更低的 asymptotic error rate。本文的实验通过判别式的 LSTM 模型和生成式的 LSTM 模型(类似于 seq2seq),在三个不同设置的实验中的表现,证明了这一结论同样适用于神经网络这样的复杂模型。然而,在数据量小,或者不同标签的数据依次出现(continual learning),或者 zero-shot learning 的情况下,生成式 LSTM 模型的性能远远好于判别式模型。
文章针对文本分类这一任务,主要比较了普通的判别式 LSTM 和经改造的 seq2seq 两个模型。改造的 seq2seq 中增加了一个 label embedding,通过优化联合概率 P(x|y)P(y) 训练,通过 argmax_y{P(x|y)P(y)} 来预测标签 y 。此外,还在实验中比较多种较简单的生成模型和其他工作中的模型
本文使用了一组包含新闻分类,情感分析,Wiki 分类和 QA 分类的数据集(http: //goo.gl/JyCnZq),进行了以下几类实验:1. 正常使用所有数据进行训练;2. 每个标签只使用 5,20,100,1000 个样本进行训练;3. 每个标签的样本依次出现(continual learning);4. zero-shot learning。在 2,3,4 中,生成式模型的性能都明显胜出。
此外,在任务 4 中本文给生成模型增加的一个 self-training algorithm 比较 tricky。
论文链接:https://arxiv.org/abs/1703.01898
推荐人:赵天雨,京都大学(PaperWeekly arXiv 打卡小组)
➏
#GRNN#
Recurrent Additive Networks
论文来自 UW 的 Omer 组,提出一种新的 gated RNN 简称 RAN,在 latent state 上只用加法更新不而掺杂 non-linearities,可以理解为 LSTM 或 GRU 的一种简化尝试。
本文 Experiment 在 Penn treebank,BWB,text8 上做 word-based 语言模型。RAN 的 perplexity 超过了 LSTM,而且在相似 performance 情况下减少了 33~37% 的参数,RAN 的另一个优势在于可以 formally 表示用来计算 hidden state 的函数空间,每个 state 是一个 component-wise 的 input 加权和。从 LSTM 转化到 RAN 可以简单理解为去掉 output gate 并简化 content layer。
论文链接:
http://www.kentonl.com/pub/llz.2017.pdf
推荐人:
沙龙,Brandeis University(PaperWeekly arXiv 打卡小组)
✎✎✎
「本周值得读」栏目的内容来自 PaperWeekly arXiv 志愿者小组推荐,如果您也是 arXiv 爱好者,愿意一起来丰富 PaperWeekly 的推荐内容,并且培养良好的阅读习惯,就请加入我们吧。请添加下面的微信号,并注明「志愿者+学校+硕士生/博士生+研究方向」,一起来为 AI 领域学术的发展贡献自己的一份力量。
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。