Large-scale language models (LMs) pretrained on massive corpora of text, such as GPT-2, are powerful open-domain text generators. However, as our systematic examination reveals, it is still challenging for such models to generate coherent long passages of text (e.g., 1000 tokens), especially when the models are fine-tuned to the target domain on a small corpus. Previous planning-then-generation methods also fall short of producing such long text in various domains. To overcome the limitations, we propose a simple but effective method of generating text in a progressive manner, inspired by generating images from low to high resolution. Our method first produces domain-specific content keywords and then progressively refines them into complete passages in multiple stages. The simple design allows our approach to take advantage of pretrained LMs at each stage and effectively adapt to any target domain given only a small set of examples. We conduct a comprehensive empirical study with a broad set of evaluation metrics, and show that our approach significantly improves upon the fine-tuned large LMs and various planning-then-generation methods in terms of quality and sample efficiency. Human evaluation also validates that our model generations are more coherent.


翻译:大型语言模型(LMS)在大量文本组合(如GPT-2)上预先培训,是强大的开放文本生成器,然而,正如我们的系统检查所显示的,对于这些模型来说,仍然具有挑战性,以产生一致的长篇文本(如1000个符号),特别是当模型在小片片上微调到目标领域时,尤其如此。先前的规划-后一代方法也不足以在不同领域产生如此长的文本。为了克服这些局限性,我们提出了一个简单而有效的方法,通过从低分辨率到高分辨率生成图像,逐步地生成文本。我们的方法首先生成了特定域内容关键词,然后逐步将其改进为多个阶段的完整段落。简单设计使我们得以利用每个阶段经过预先培训的LMS的方法,并有效地适应任何目标领域,仅以一小部分实例为例。我们进行了全面的实证研究,并展示了我们的方法大大改进了经过精细调整的大型LMs以及从质量和抽样效率方面的各种规划-代方法。人类评估还证实我们各代模式更加一致。

0
下载
关闭预览

相关内容

【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
5+阅读 · 2019年4月21日
Paraphrase Generation with Deep Reinforcement Learning
VIP会员
相关VIP内容
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
Top
微信扫码咨询专知VIP会员