这篇论文研究了离散DGM的原理和应用。深度生成模型(DGM)是一种深度神经网络,能够建模高维概率分布并生成随机样本。在DGM的各种应用中,有些涉及固有的离散组件,这推动了对离散随机变量的建模需求;例如,文本建模和具有离散变量的控制。离散性引起了关于离散DGM设计的基本问题。如何训练一个离散DGM?其应用是什么?如何进行大规模的离散建模和预测?我们从重新参数化的角度研究了离散DGM的训练。重新参数化是一种用DGM建模的随机变量的梯度估计方法。由于梯度估计的高方差,这是具有挑战性的。受到Straight-Through Gumbel-Softmax估计器的基本属性的启发,我们提出了一种新的重新参数化方法,称为Gapped Straight-Through估计器,以减少方差而不产生重新采样开销。我们还介绍了离散重新参数化在强化学习(RL)中的应用,用于电力系统控制,其中控制变量是整数。我们对这个应用有两方面的贡献:电力系统的RL环境和一个带有整数重新参数化方案的RL算法。环境构建确定了系统的实际选择。已经发布了这个环境的开源包,并在电力研究社区中使用。电力系统的RL算法包括DDPG风格的策略梯度和对整数动作的重新参数化。 最后,我们从Transformer的核化视角探讨大规模的生成性文本建模。我们观察到,相对位置嵌入(RPE)对于Transformer在长序列上的良好表现是至关重要的。然而,RPE的理论框架仍然缺失。因此,我们通过条件正定(CPD)核来形式化RPE的核化版本。CPD核的多样性使我们能够推导出各种能够实现长度外推的RPE(在短序列上训练,但在长序列上测试)。实验表明,对数变种在三个大型语言建模数据集上都实现了出色的外推效果。

成为VIP会员查看完整内容
31

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【宾夕法尼亚博士论文】大规模图机器学习,179页pdf
专知会员服务
38+阅读 · 2022年11月20日
【牛津大学博士论文】关系数据的学习和推理,243页pdf
专知会员服务
51+阅读 · 2022年11月16日
专知会员服务
137+阅读 · 2021年8月12日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员