大规模的神经语言模型在自然语言生成方面取得了令人印象深刻的进展。然而,典型的模型以一种从左到右的、不受约束的方式运行,对生成的内容的控制有限。本文探讨了柔性序列模型和弱监督方法来执行各种控制生成任务。我们预计这些技术将广泛应用于其他领域,如图像、分子和生物序列的生成。

我们首先介绍了一类称为空白语言模型(BLMs)的序列模型,它通过动态创建和填充空白来生成序列。给定带有一个或多个空格的部分指定文本,BLM将使用与上下文一致的可变数量的标记来填充这些空格。我们的模型非常适合各种文本编辑和重写任务,并在文本填充、古代文本恢复和情感迁移方面证明了有效性。

接下来,我们研究文本自动编码器及其通过潜在空间操作控制生成的用途。我们建立了一个理论,如何塑造一个有意义的潜在空间几何离散文本数据。在此基础上,我们开发了一系列去噪文本自动编码器,通过简单的矢量算法展示了属性修改(例如,时态,情感等)的潜力。

最后两章讨论了在没有监督数据的情况下的语言风格迁移。我们首先将非并行风格迁移的任务形式化,并讨论学习问题的可行性。我们提出了一种利用潜在表示的分布对齐来执行样式传输的方法。然后,我们研究了混杂因素,并表明通过将数据分为两组不同的风格,每组中的集合说明了我们不希望改变的变化,我们可以利用不变性来隔离混杂因素,并向所需的方向转移文本。

https://dspace.mit.edu/handle/1721.1/144561

成为VIP会员查看完整内容
21

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【MIT博士论文】因果推论在社会和工程系统应用,348页pdf
【MIT博士论文】自监督学习语音处理,148页pdf
专知会员服务
51+阅读 · 2022年8月31日
【MIT博士论文】使用神经符号学习的鲁棒可靠智能系统
专知会员服务
38+阅读 · 2022年7月5日
专知会员服务
71+阅读 · 2021年7月29日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
56+阅读 · 2021年4月21日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
【MIT博士论文】数据高效强化学习,176页pdf
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年10月18日
Arxiv
1+阅读 · 2022年10月18日
Arxiv
0+阅读 · 2022年10月14日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员