基于非监督风格解离的中文诗歌生成

2019 年 1 月 11 日 微信AI

前言

中国古典诗歌是中国文化史上的伟大遗产。其中最流行的中国古典诗歌类型，当属绝句。漫漫的历史长河积累了许多优秀的五言绝句以及七言绝句诗歌。这类古典诗歌以其整齐的节奏与独特的曲调在中国文化中传承。同时在一千多年年的历史发展中，诗歌也呈现出多种风格，例如：田园，边塞，浪漫主义，现实主义等。在人类诗歌创作中，即使基于相同的关键词或主题，不同风格的诗人也可以用迥异的风格写出完全不同的诗歌。例如图1所示，当诗人提到“月”（月亮）时，他们既可以写出边境征战的兵戈铁马，也可以描绘思念忐忑的不眠之情。这种针对相同的诗歌意象赋予不同的表达内涵是人类诗歌创作的一个重要特征。

图1 同一意象下不同写作风格的诗歌示例

而近年来，随着Seq2seq等生成模型在自然语言处理领域的广泛应用，机器写作吸引着越来越多研究者的注意。因而中国古典诗歌生成成为一个重要的研究课题。给定同样的诗歌意象，基于不用的风格进行创作对于诗歌的多样性创作具有重要意义。而近年来，大多数古体诗诗歌创作研究主要集中在解决生成内容的主题一致性。目前较少的工作把目光集中于生成诗歌的风格控制上，而这其实是人类创作的一个重要特征。

同时由于现有的数据中缺乏诗歌的风格标签。传统的有监督Seq2seq生成模型不能很好的满足特定风格诗歌的生成任务。本次paper reading为大家介绍EMNLP 2018的一篇文章---Stylistic Chinese PoetryGeneration via Unsupervised Style Disentanglement [1],该论文提出一种非监督风格解离的诗歌生成方法。他们是第一个使用完全非监督的方法开展特定风格的诗歌生成任务。该方法能够自动将诗歌划分为不同的风格进而同时进行诗歌的风格控制生成。具体而言，该方法中使用基于注意力机制的seq2seq模型作为基准模型，使用最大化特定风格的输入与指定风格的输出之间的互信息（Mutual Information）来达到控制风格生成的目的。同时在此控制过程中也保证生成内容的连贯性与相关性。

总结而言，本文介绍的模型主要具有以下几个贡献：

该模型是第一个使用完全非监督的方式进行诗歌的风格控制生成，很好的刻画了人类创作的真实过程。
模型将互信息引入到诗歌的非监督解离与特定风格生成任务中，并且实验结果验证了该方法的可行性与生成内容的多样性。

模型整体介绍

该论文中提出的模型整体框架如图2所示，模型需要两个输入参数，输入的句子以及风格的ID，基于这两个输入生成该风格下的古典诗歌。接下来我们将依次介绍该模型的几个部分，首先我们来回顾互信息的含义。

图2 风格控制诗歌生成模型整体框架

给定两个随机变量X与Y，二者的互信息I (X,Y) 刻画了给定一个随机变量获得另一个随机变量的信息量，同时互信息也可以被解释为关于联合概率分布p (X,Y)与边缘分布p(X)p(Y)的乘积有多相似的度量。

互信息的定义如下：

而对于基于注意力机制的seq2seq模型，有着如下的定义，给定输入句子X以及输出句子Y，文章中使用双向的LSTM对输入进行编码，因而可以计算得到LSTM的隐状态：

基于风格控制的解码模型

为了编码风格ID，模型中使用风格的one hot 编码作为输入，同时基于上述介绍中的双向LSTM模型可以得到输入句子的隐状态h，进而将二者的拼接结果作为解码网络的输入。为了增加输入风格与生成结果的强约束，模型损失函数中引入新的正则化项来增强风格控制与生成结束的强约束。进而来达到控制生成的目的。

不失一般性，模型中假定输入风格ID是一个均匀分布的随机变量Sty，并且Pr(Sty=k) = 1/k. 回想前面的关于互信息的定义我们不难发现，模型需要最大化风格随机分布Pr(Sty)与生成句子的随机分布Pr(Y;X). 具体模型可以详细参照图2，因而二者的互信息可以计算为：

根据上面的计算，我们注意到输入序列X与风格Sty是独立的随机变量，因而后验分布

而后验分布无法直接计算，为此该模型使用评估函数Q去近似后验分布，具体可以通过最小化后验分布与Q函数的KL距离来达到近似的目标。因此在该模型中定义Q函数为：

其中e(y)也会根据模型训练来更新。基于上述的Q函数，接下来需要计算Y|k;X 的积分，但是由于生成过程中Y所在的搜索空间是指数级别的，因而模型无法直接计算相应的积分。在这篇论文中，作者进一步提出使用Expected Character Embedding来近似计算。

使用Expected Character Embedding主要用于近似计算输出序列的概率空间。我们只生成一个预期的嵌入序列并假设Y | k; X有百分之百的概率产生该序列。具体“expected” 生成序列表示为：

其中expect (i;k,X)∈R表示在给定样式id为k且输入序列为X的情况下，i时刻的Expected Character Embedding，c∈V表示词汇表中的所有字符。然后在解码阶段，将expect(i; k, X) 输入LSTM来更新隐藏状态以生成下一个预期字符。

具体解码过程的下一时刻输出为：

其中a表示基于注意力机制计算得到的context vector. 基于此解码过程可以定义相应的损失函数：

式子中的第一项确保解码器可以生成流畅和连贯的输出，第二项保证特定风格的输出对one-hot表示有很强的依赖性。经过该结构的设计可以达到特定风格的生成控制效果。此外该模型也可以适用于其他任务场景下的生成控制。

模型中的非监督主要体现在对于训练过程中，无需用户指定生成风格，模型自动为每首诗确定其风格并最大化约束结果，使其学到该类风格的写作方式。在真实的生成阶段，用户指定风格进而进行风格诗歌生成（SPG）。

实验效果

实验数据集为16万首五言及七言绝句，该论文中的模型SPG分别与Seq2seq, Polish以及基于Memory的几个baseline进行实验对比。考虑到诗歌生成的主观性，该文章中使用人工进行评测，具体的评测依据有如下几点：

流畅性（Fluency）：生成的诗歌是否流利而且形式良好；
相关性（Coherence）：生成的诗歌是否主题一致；
富有含义（Meaningfulness）：生成的诗歌是否传达了某些含义；
富有诗意（Poeticness）：生成的诗歌是否具有一些诗意特征。

论文中将几个baseline模型分成两组，旨在减少人工评测的相互影响。具体基于该评测指标得到的几个模型的对比结果如图3所示：

表1 多个模型实验结果对比

组1的实验结果展示了SPG模型相比基本的Seq2seq模型效果的优越性，在四类人工评测指标上均优势明显。组2展示了SPG与其他两类机器生成模型的效果比较以及人类诗歌的比较。可以发现SPG优于其他两类但是和人类真实的诗歌还是具有一定的差异。

图3 生成诗歌示例展示

总结

在这篇文章中，作者提出了一种风格诗歌创作（SPG）模型，让机器来学习在同一诗歌意象下以不同风格写诗的能力。该工作是完全非监督的风格诗歌创作的第一个工作。因此，模型不需要昂贵的人工标注。同时模型利用互信息，即信息理论中的概念，来增强模型效果。实验结果表明，SPG能够以不同的风格生成流畅和连贯的诗歌，而不会失去流畅性和一致性。对于未来的工作，作者也提到将考虑对其他文本生成任务采用互信息正则化方法，鼓励风格生成的多样性来提高生成效果。

文本自动创作是一个体现机器智能的任务，机器能够生成高质量的与人类创作相媲美的诗句是这个领域的研究者一直追求的目标。除此之外，相关的对话生成，故事生成等其他文本创作生成任务也越来越得到广泛的关注。对于该领域感兴趣的同学也可以继续关注相关研究动态。

参考文献

[1] Stylistic Chinese Poetry Generation viaUnsupervised Style Disentanglement. EMNLP 2018

http://aclweb.org/anthology/D18-1430

[2] Chinese poetry generation withrecurrent neural networks. EMNLP 2014

http://www.aclweb.org/anthology/D14-1074