自然语言生成 (Natural Language Generation, NLG) 是自然语言处理 (Natural Language Processing, NLP) 的重要组成部分。诗歌作为一种高度文学化、艺术化、 凝练化的语言形式,在数千年历史中对人类文化和社会的发展产生了深远影响。其 中,中文古典诗歌表达简洁、形式规整,同时内容丰富、情感细腻,从而成为研 究自然语言生成理想的切入点。中文古典诗歌自动写作方法的研究始于上世纪末, 并因其丰富的研究价值,近年来逐渐成为自然语言处理领域的又一热点。从研究 角度,该任务有助于探索人类写作的内在计算机理和构建可计算性创造力;从应 用角度,该任务在趣味娱乐、智能教育、文学研究等方面都有广泛的应用场景。

传统方法往往将诗歌自动写作看作简单的序列预测/映射任务,忽略了诗歌作 为一种文学体裁所具有的特性。这一方面导致生成的诗作存在上下文不连贯和扣 题性差等问题,损害了诗歌的可读性;另一方面使得生成的诗歌趋于雷同,不具 备足够的新颖性和趣味性。这些问题严重降低了用户对自动作诗系统的使用体验, 限制了下游应用的有效构建。针对上述不足,本文致力于提升生成的诗歌的文学 表现力 (Literary Expressiveness),并从构成文学表现力的两个层面,文本质量和美 学特征切入,对其所面临的研究挑战逐一地、系统性地提出了相应的解决方案。

在文学表现力的文本质量层面,本文主要关注并解决自动生成的诗歌的连贯 性和扣题性问题。针对连贯性,我们创新性地提出了显著线索机制和工作记忆模 型两个方法,用以排除诗句生成过程中上文无关噪音的干扰,进而提升自动生成 的一首诗歌中各个诗句之间的关联程度和整体性。对于扣题性,我们设计了单独 的主题记忆模块并结合文本风格转换技术,分别处理输入为多关键词和完整语句 的情况,以促使生成的诗歌在主题和内容上与用户的输入紧密关联。

在文学表现力的审美特征层面,本文重点研究并处理诗歌的新颖性和风格化 问题。针对新颖性,我们采用强化学习方法直接建模并量化诗歌质量评测的人工 指标,以激励模型在用词和行文上更加靠近人类。对于风格化,我们设计了一种 新颖的隐空间风格因素混合方法,以赋予所生成的诗歌鲜明且可控的风格特征。此外,对上述所提出的方法本工作都进行了工程化实现,并集成构建了我们 的在线中文古典诗歌自动写作系统——“九歌”。该系统自上线至今累计获得上千 万访问量,在学术界以及大众中产生了广泛而积极的社会影响。

成为VIP会员查看完整内容
30

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
69+阅读 · 2021年5月21日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
专知会员服务
55+阅读 · 2020年12月20日
【博士论文】辨识性特征学习及在细粒度分析中的应用
专知会员服务
29+阅读 · 2020年12月10日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
东南大学张敏灵教授:偏标记学习的研究
学术头条
6+阅读 · 2019年12月5日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
基于非监督风格解离的中文诗歌生成
微信AI
4+阅读 · 2019年1月11日
LaMDA: Language Models for Dialog Applications
Arxiv
9+阅读 · 2022年1月20日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
69+阅读 · 2021年5月21日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
知识增强的文本生成研究进展
专知会员服务
98+阅读 · 2021年3月6日
专知会员服务
55+阅读 · 2020年12月20日
【博士论文】辨识性特征学习及在细粒度分析中的应用
专知会员服务
29+阅读 · 2020年12月10日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
微信扫码咨询专知VIP会员