Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers have seen limited adoption as components of text VAEs. Existing studies that incorporate Transformers into text VAEs (Li et al., 2020; Fang et al., 2021) mitigate posterior collapse using massive pretraining, a technique unavailable to most of the research community without extensive computing resources. We present a simple two-phase training scheme to convert a sequence-to-sequence Transformer into a VAE with just finetuning. The resulting language model is competitive with massively pretrained Transformer-based VAEs in some internal metrics while falling short on others. To facilitate training we comprehensively explore the impact of common posterior collapse alleviation techniques in the literature. We release our code for reproducability.


翻译:文本变换自动编码器(VAEs)因事后崩溃而臭名昭著, 这是一种模型的解码器学会忽略编码器信号的现象。 因为已知后代解码器的表达式解码器会加剧后代崩溃, 变换器认为作为文本变换自动编码器组成部分的采用有限。 将变换器纳入文本变换器的现有研究(Li等人, 2020年; Fang 等人, 2021年)利用大规模预培训来减轻后代崩溃, 这是一种多数研究界没有广泛计算资源的技术。 我们提出了一个简单的两阶段培训计划, 将序列到序列变换器转换成VAE, 并进行简单的微调。 由此产生的语言模式具有竞争力, 与一些内部指标中大量预先训练的变换码器VAEs, 同时落后于其他指标。 为了便利培训, 我们全面探索文献中常见的后代崩溃法的影响。 我们发布了可复制的代码 。

0
下载
关闭预览

相关内容

人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
64+阅读 · 2021年2月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
阅读理解之(bidaf)双向注意力流网络
AINLP
9+阅读 · 2019年6月22日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年1月26日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Arxiv
3+阅读 · 2018年6月18日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
【AAAI2021】预训练语言模型最新进展,附113页ppt和视频
专知会员服务
64+阅读 · 2021年2月23日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关论文
Top
微信扫码咨询专知VIP会员