【普林斯顿博士论文】离散深度生成模型的原理与应用，137页pdf - 专知VIP

会员服务 ·

22

普林斯顿大学 (Princeton University) · 深度生成模型 ·

2023 年 7 月 24 日

【普林斯顿博士论文】离散深度生成模型的原理与应用，137页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

这篇论文研究了离散DGM的原理和应用。深度生成模型（DGM）是一种深度神经网络，能够建模高维概率分布并生成随机样本。在DGM的各种应用中，有些涉及固有的离散组件，这推动了对离散随机变量的建模需求；例如，文本建模和具有离散变量的控制。离散性引起了关于离散DGM设计的基本问题。如何训练一个离散DGM？其应用是什么？如何进行大规模的离散建模和预测？我们从重新参数化的角度研究了离散DGM的训练。重新参数化是一种用DGM建模的随机变量的梯度估计方法。由于梯度估计的高方差，这是具有挑战性的。受到Straight-Through Gumbel-Softmax估计器的基本属性的启发，我们提出了一种新的重新参数化方法，称为Gapped Straight-Through估计器，以减少方差而不产生重新采样开销。我们还介绍了离散重新参数化在强化学习（RL）中的应用，用于电力系统控制，其中控制变量是整数。我们对这个应用有两方面的贡献：电力系统的RL环境和一个带有整数重新参数化方案的RL算法。环境构建确定了系统的实际选择。已经发布了这个环境的开源包，并在电力研究社区中使用。电力系统的RL算法包括DDPG风格的策略梯度和对整数动作的重新参数化。最后，我们从Transformer的核化视角探讨大规模的生成性文本建模。我们观察到，相对位置嵌入（RPE）对于Transformer在长序列上的良好表现是至关重要的。然而，RPE的理论框架仍然缺失。因此，我们通过条件正定（CPD）核来形式化RPE的核化版本。CPD核的多样性使我们能够推导出各种能够实现长度外推的RPE（在短序列上训练，但在长序列上测试）。实验表明，对数变种在三个大型语言建模数据集上都实现了出色的外推效果。

成为VIP会员查看完整内容

34

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【斯坦福博士论文】非线性潜变量模型的推理和学习，180页pdf

【斯坦福博士论文】非线性潜变量模型的推理和学习，180页pdf

专知会员服务

28+阅读 · 2023年9月9日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

专知会员服务

66+阅读 · 2023年1月17日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知会员服务

40+阅读 · 2022年11月20日

【牛津大学博士论文】关系数据的学习和推理，243页pdf

【牛津大学博士论文】关系数据的学习和推理，243页pdf

专知会员服务

54+阅读 · 2022年11月16日

【硬核书】机器学习随机矩阵理论，472页pdf

专知会员服务

147+阅读 · 2021年8月12日

【Aalto博士论文】高效样本近似贝叶斯计算的高斯过程代理方法，84页pdf

专知会员服务

35+阅读 · 2020年9月30日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知

8+阅读 · 2023年4月10日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知

6+阅读 · 2022年11月21日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知

6+阅读 · 2022年11月20日

【牛津大学博士论文】关系数据的学习和推理，243页pdf

【牛津大学博士论文】关系数据的学习和推理，243页pdf

专知

1+阅读 · 2022年11月16日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【牛津大学博士论文】深度学习数据驱动发现偏微分方程，160页pdf

【牛津大学博士论文】深度学习数据驱动发现偏微分方程，160页pdf

专知

2+阅读 · 2022年11月1日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知

4+阅读 · 2022年10月27日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知

6+阅读 · 2022年10月8日

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

专知

2+阅读 · 2022年10月1日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上指数和与量子码的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

A DenseNet-based method for decoding auditory spatial attention with EEG

Arxiv

0+阅读 · 2023年9月14日

Correcting sampling biases via importance reweighting for spatial modeling

Arxiv

0+阅读 · 2023年9月14日

On a continuous time model of gradient descent dynamics and instability in deep learning

Arxiv

0+阅读 · 2023年9月13日

Artificial boundary conditions for random ellitpic systems with correlated coefficient field

Arxiv

0+阅读 · 2023年9月13日

Oceananigans.jl: A model that achieves breakthrough resolution, memory and energy efficiency in global ocean simulations

Arxiv

0+阅读 · 2023年9月13日

A comparison of citation-based clustering and topic modeling for science mapping

Arxiv

1+阅读 · 2023年9月12日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

深度生成模型

相关VIP内容

【斯坦福博士论文】非线性潜变量模型的推理和学习，180页pdf

【斯坦福博士论文】非线性潜变量模型的推理和学习，180页pdf

专知会员服务

28+阅读 · 2023年9月9日

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

【MIT博士论文】稀疏深度神经网络加速器的系统建模与设计, 139页pdf

专知会员服务

36+阅读 · 2023年8月12日

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

【牛津大学博士论文】神经网络中的核与特征学习，160页pdf

专知会员服务

64+阅读 · 2023年6月29日

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

专知会员服务

66+阅读 · 2023年1月17日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知会员服务

40+阅读 · 2022年11月20日

【牛津大学博士论文】关系数据的学习和推理，243页pdf

【牛津大学博士论文】关系数据的学习和推理，243页pdf

专知会员服务

54+阅读 · 2022年11月16日

【硬核书】机器学习随机矩阵理论，472页pdf

专知会员服务

147+阅读 · 2021年8月12日

【Aalto博士论文】高效样本近似贝叶斯计算的高斯过程代理方法，84页pdf

专知会员服务

35+阅读 · 2020年9月30日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知

8+阅读 · 2023年4月10日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知

6+阅读 · 2022年11月21日

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

【宾夕法尼亚博士论文】大规模图机器学习，179页pdf

专知

6+阅读 · 2022年11月20日

【牛津大学博士论文】关系数据的学习和推理，243页pdf

【牛津大学博士论文】关系数据的学习和推理，243页pdf

专知

1+阅读 · 2022年11月16日

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

【牛津大学博士论文】深度学习中的结构与不确定性，205页pdf

专知

9+阅读 · 2022年11月9日

【牛津大学博士论文】深度学习数据驱动发现偏微分方程，160页pdf

【牛津大学博士论文】深度学习数据驱动发现偏微分方程，160页pdf

专知

2+阅读 · 2022年11月1日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知

4+阅读 · 2022年10月27日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知

6+阅读 · 2022年10月8日

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

专知

2+阅读 · 2022年10月1日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知

5+阅读 · 2022年9月7日

相关基金

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机Kolmogorov型系统及其数值解的渐近性质分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于最大相关熵准则的支持向量机模型与算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限域上指数和与量子码的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

A DenseNet-based method for decoding auditory spatial attention with EEG

Arxiv

0+阅读 · 2023年9月14日

Correcting sampling biases via importance reweighting for spatial modeling

Arxiv

0+阅读 · 2023年9月14日

On a continuous time model of gradient descent dynamics and instability in deep learning

Arxiv

0+阅读 · 2023年9月13日

Artificial boundary conditions for random ellitpic systems with correlated coefficient field

Arxiv

0+阅读 · 2023年9月13日

Oceananigans.jl: A model that achieves breakthrough resolution, memory and energy efficiency in global ocean simulations

Arxiv

0+阅读 · 2023年9月13日

A comparison of citation-based clustering and topic modeling for science mapping

Arxiv

1+阅读 · 2023年9月12日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员