加拿大研究员使用自然语言对抗生成中国古诗词

2017 年 7 月 13 日 算法与数学之美

  自然语言对抗生成:





加拿大研究员使用GAN生成中国古诗词  

来源:arXiv

编译:文强


【导读】今日 arXiv 最火论文之一,作者包括著名的《深度学习》(Deep Learning)一书的作者 Aaron Courville。论文用 GAN 解决自然语言处理问题,“在中国诗词数据集上取得目前最好结果”。研究人员表示,他们为训练 GAN 生成自然语言提供了一种直接有效的方法。作者表示,接下来他们想探索 GAN 在 NLP 其他领域的应用,比如非目标导向的对话系统。


对抗生成网络(GAN)是眼下的热词,而使用 GAN 做自然语言处理(NLP)则一直是业界关注的问题。日前,包括“Deep Learning”一书作者、CIFAR Fellow Aaron Courville 在内的加拿大研究人员在 arXiv 上传论文《自然语言对抗生成》 “Adversarial Generation of Natural Language”,称为训练 GAN 生成自然语言提供了一种直接而有效的方法


作者表示,而其简单之处在于,向判别器提供来自生成器的概率分布序列和对应于真实数据分布的 1-热矢量序列(a sequence of 1-hot vectors),强制判别器对连续值进行运算


论文提出的模型架构。


此外,论文还提供了定量和定性的评估方法,展示了有可能对高级句子特征(如情绪和问题)进行文本的条件生成。


论文中给出的文本条件生成示例:上面一行是使用亚马逊网站带有“积极”和“消极”属性的评论数据集作为训练数据生成的样本,下面一行则是有同样数据集中带有“问题”特征的条件生成样本。


作者表示,接下来他们想探索 GAN 在 NLP 其他领域的应用,比如非目标导向的对话系统。





论文《自然语言的对抗生成》及实验介绍





摘要


生成对抗网络(GAN)近来在计算机视觉界引起了很多注意,在图像生成方面取得了令人印象深刻的结果。但是,从噪音中对抗生成自然语言的进展与在图像生成方面的进展并不相称,仍远远落后于基于似然的方法(likelihood based methods)。本文中,我们单一以 GAN 为目标,生成自然语言。论文引入了一个简单的基准,解决了离散输出空间问题,不依赖于梯度估计函数(gradient estimator),并在一个中国诗词数据集上取得了当前最好的结果。论文还提供了从无上下文和随机上下文无关文法(probabilistic context-free grammar)生成句子的定量结果,以及语言建模的定性结果。论文还描述了一个能够根据句子条件特征生成序列的条件版本(conditional version)。


作者介绍,语言模型一般是通过测量模型下样本与真实数据分布的似然进行评估的。然而,使用 GAN,测量模型本身的似然是不可能的,因此他们采取了其他方法,通过测量模型样本在真实数据分布下的似然对结果进行评估。


作者将实验分为 4 类:


  1. 生成语言,这些语言属于 CFG 样本数据集(toy CFG),以及从 Penn Treebank 推导而来的 PCFG (Marcus et al., 1993) 数据集

  2. 生成中国诗词,与 (Yu et al., 2016) 和 (Che et al., 2017) 的结果进行比较

  3. 生成包含简单英语句子的语言,这些句子来自于 1-billion-word 和 Penn Treebank 数据集

  4. 使用 Conditional GAN,生成带有情绪(sentiment)和问题(question)等属性的句子。


实验结果




表 1(见上)展示了实验1 中,句子生成定量分析的结果。Acc 和 Uniq 分别表示精确度(Accuracy)和独特度(Uniqueness),LSTM-P 表示带有 output peephole 的 LSTM。WGAN-GP 和 GAN-GP 表示在训练过程中采用了梯度惩罚(gradient penalty,GP)的模型。



从表 2(见上)中可见,在五言诗和七言绝句中,作者提出的方法 BLEU 得分都是最高的。


  1-billion word 数据集字和词级别上的生成结果。


  Penn Treebank 和 CMU-SE 数据集在字级别(Word level)上的生成结果。



高质量延伸阅读


☞  第一个被认为“科学家”的人:泰勒斯

☞  数学思维比数学运算更重要

☞  二十世纪的十大科学骗局

☞  瞎扯现代数学的基础

☞  x背后的轶闻趣事

☞  主宰这个世界的10大算法

☞  16个让你烧脑让你晕的悖论

☞  机器学习中距离和相似性度量方法

☞  传说中的快排是怎样的

☞  玻璃秘史:一个人 改变了全世界

☞  程序人生的四个象限和两条主线

☞  比特币的原理及运作机制

☞  概率论公式,你值得拥有

☞  分类算法之朴素贝叶斯算法

☞  采样定理:有限个点构建出整个函数


登录查看更多
4

相关内容

GAN:生成性对抗网,深度学习模型的一种,在神经网络模型中引入竞争机制,非常流行。
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
专知会员服务
54+阅读 · 2019年12月22日
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
已删除
将门创投
5+阅读 · 2019年4月15日
谷歌NeurIPS 2018:全新NLP工具炼成会改变文风的AI
全球人工智能
3+阅读 · 2018年12月12日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
【GAN货】用神经网络生成音乐
专知
13+阅读 · 2018年9月15日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
11+阅读 · 2018年3月23日
Arxiv
12+阅读 · 2018年1月28日
Arxiv
3+阅读 · 2017年11月21日
VIP会员
相关VIP内容
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
专知会员服务
54+阅读 · 2019年12月22日
相关资讯
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
已删除
将门创投
5+阅读 · 2019年4月15日
谷歌NeurIPS 2018:全新NLP工具炼成会改变文风的AI
全球人工智能
3+阅读 · 2018年12月12日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
【GAN货】用神经网络生成音乐
专知
13+阅读 · 2018年9月15日
相关论文
Arxiv
8+阅读 · 2019年2月15日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
5+阅读 · 2018年6月4日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
11+阅读 · 2018年3月23日
Arxiv
12+阅读 · 2018年1月28日
Arxiv
3+阅读 · 2017年11月21日
Top
微信扫码咨询专知VIP会员