自然语言生成 (Natural Language Generation, NLG) 是自然语言处理 (Natural Language Processing, NLP) 的重要组成部分。诗歌作为一种高度文学化、艺术化、 凝练化的语言形式,在数千年历史中对人类文化和社会的发展产生了深远影响。其 中,中文古典诗歌表达简洁、形式规整,同时内容丰富、情感细腻,从而成为研 究自然语言生成理想的切入点。中文古典诗歌自动写作方法的研究始于上世纪末, 并因其丰富的研究价值,近年来逐渐成为自然语言处理领域的又一热点。从研究 角度,该任务有助于探索人类写作的内在计算机理和构建可计算性创造力;从应 用角度,该任务在趣味娱乐、智能教育、文学研究等方面都有广泛的应用场景。
传统方法往往将诗歌自动写作看作简单的序列预测/映射任务,忽略了诗歌作 为一种文学体裁所具有的特性。这一方面导致生成的诗作存在上下文不连贯和扣 题性差等问题,损害了诗歌的可读性;另一方面使得生成的诗歌趋于雷同,不具 备足够的新颖性和趣味性。这些问题严重降低了用户对自动作诗系统的使用体验, 限制了下游应用的有效构建。针对上述不足,本文致力于提升生成的诗歌的文学 表现力 (Literary Expressiveness),并从构成文学表现力的两个层面,文本质量和美 学特征切入,对其所面临的研究挑战逐一地、系统性地提出了相应的解决方案。
在文学表现力的文本质量层面,本文主要关注并解决自动生成的诗歌的连贯 性和扣题性问题。针对连贯性,我们创新性地提出了显著线索机制和工作记忆模 型两个方法,用以排除诗句生成过程中上文无关噪音的干扰,进而提升自动生成 的一首诗歌中各个诗句之间的关联程度和整体性。对于扣题性,我们设计了单独 的主题记忆模块并结合文本风格转换技术,分别处理输入为多关键词和完整语句 的情况,以促使生成的诗歌在主题和内容上与用户的输入紧密关联。
在文学表现力的审美特征层面,本文重点研究并处理诗歌的新颖性和风格化 问题。针对新颖性,我们采用强化学习方法直接建模并量化诗歌质量评测的人工 指标,以激励模型在用词和行文上更加靠近人类。对于风格化,我们设计了一种 新颖的隐空间风格因素混合方法,以赋予所生成的诗歌鲜明且可控的风格特征。此外,对上述所提出的方法本工作都进行了工程化实现,并集成构建了我们 的在线中文古典诗歌自动写作系统——“九歌”。该系统自上线至今累计获得上千 万访问量,在学术界以及大众中产生了广泛而积极的社会影响。