将预先训练的变压器改装成变式自动电解器 (Finetuning Pretrained Transformers into Variational Autoencoders) - 专知论文

会员服务 ·

0

变分自编码 · 自编码器 · 变换 · Extensibility · 语言模型化 ·

2021 年 8 月 5 日

Finetuning Pretrained Transformers into Variational Autoencoders

翻译：将预先训练的变压器改装成变式自动电解器

Seongmin Park,Jihwa Lee

Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers have seen limited adoption as components of text VAEs. Existing studies that incorporate Transformers into text VAEs (Li et al., 2020; Fang et al., 2021) mitigate posterior collapse using massive pretraining, a technique unavailable to most of the research community without extensive computing resources. We present a simple two-phase training scheme to convert a sequence-to-sequence Transformer into a VAE with just finetuning. The resulting language model is competitive with massively pretrained Transformer-based VAEs in some internal metrics while falling short on others. To facilitate training we comprehensively explore the impact of common posterior collapse alleviation techniques in the literature. We release our code for reproducability.

翻译：文本变换自动编码器(VAEs)因事后崩溃而臭名昭著, 这是一种模型的解码器学会忽略编码器信号的现象。因为已知后代解码器的表达式解码器会加剧后代崩溃, 变换器认为作为文本变换自动编码器组成部分的采用有限。将变换器纳入文本变换器的现有研究(Li等人, 2020年; Fang 等人, 2021年)利用大规模预培训来减轻后代崩溃, 这是一种多数研究界没有广泛计算资源的技术。我们提出了一个简单的两阶段培训计划, 将序列到序列变换器转换成VAE, 并进行简单的微调。由此产生的语言模式具有竞争力, 与一些内部指标中大量预先训练的变换码器VAEs, 同时落后于其他指标。为了便利培训, 我们全面探索文献中常见的后代崩溃法的影响。我们发布了可复制的代码。

0

相关内容

变分自编码

变分自编码

对比学习简述

专知会员服务

88+阅读 · 2021年6月29日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

24+阅读 · 2021年5月20日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

305+阅读 · 2020年11月26日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

102+阅读 · 2020年8月30日

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

专知会员服务

71+阅读 · 2020年8月2日

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

专知会员服务

23+阅读 · 2020年4月1日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

116+阅读 · 2020年2月3日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

47+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

58+阅读 · 2019年10月17日

《DeepGCNs: Making GCNs Go as Deep as CNNs》

《DeepGCNs: Making GCNs Go as Deep as CNNs》

专知会员服务

30+阅读 · 2019年10月17日

Transformer中的相对位置编码

Transformer中的相对位置编码

AINLP

5+阅读 · 2020年11月28日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

机器学习研究会

5+阅读 · 2018年2月11日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Adversarial Variational Bayes: Unifying VAE and GAN 代码

Adversarial Variational Bayes: Unifying VAE and GAN 代码

CreateAMind

7+阅读 · 2017年10月4日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

Compositional generalization in semantic parsing with pretrained transformers

Arxiv

0+阅读 · 2021年10月5日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation

Arxiv

17+阅读 · 2021年3月19日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Discrete Autoencoders for Sequence Models

Arxiv

6+阅读 · 2018年1月29日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

VIP会员

文章信息

相关主题

变分自编码

语言模型化

相关VIP内容

对比学习简述

专知会员服务

88+阅读 · 2021年6月29日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

24+阅读 · 2021年5月20日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

305+阅读 · 2020年11月26日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

102+阅读 · 2020年8月30日

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

神经常微分方程教程，50页ppt，A brief tutorial on Neural ODEs

专知会员服务

71+阅读 · 2020年8月2日

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

专知会员服务

23+阅读 · 2020年4月1日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

116+阅读 · 2020年2月3日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

47+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

58+阅读 · 2019年10月17日

《DeepGCNs: Making GCNs Go as Deep as CNNs》

《DeepGCNs: Making GCNs Go as Deep as CNNs》

专知会员服务

30+阅读 · 2019年10月17日

热门VIP内容

相关资讯

Transformer中的相对位置编码

Transformer中的相对位置编码

AINLP

5+阅读 · 2020年11月28日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

【跟踪Tracking】15篇论文+代码 | 中秋快乐~

专知

18+阅读 · 2018年9月24日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

机器学习研究会

5+阅读 · 2018年2月11日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

Adversarial Variational Bayes: Unifying VAE and GAN 代码

Adversarial Variational Bayes: Unifying VAE and GAN 代码

CreateAMind

7+阅读 · 2017年10月4日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

相关论文

Compositional generalization in semantic parsing with pretrained transformers

Arxiv

0+阅读 · 2021年10月5日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Adversarial and Contrastive Variational Autoencoder for Sequential Recommendation

Arxiv

17+阅读 · 2021年3月19日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Discrete Autoencoders for Sequence Models

Arxiv

6+阅读 · 2018年1月29日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

微信扫码咨询专知VIP会员