后验贝叶斯神经网络(BNN)参数是非常高维和非凸的。出于计算上的原因,研究人员使用廉价的小批量方法来近似这种后变方法,如平均场变分推断或随机梯度马尔科夫链蒙特卡罗(SGMCMC)。为了研究贝叶斯深度学习中的基础问题,我们在现代体系结构中使用全批量哈密顿蒙特卡罗(HMC)。我们证明: (1)与标准训练和深度集成相比,BNNs可以获得显著的性能增益; (2)单一的HMC长链可以提供多个较短链后验的可比性表示;(3)与最近的研究相比,我们发现不需要后验回火来获得接近最佳的性能,几乎没有证据表明存在“冷后验”效应,这主要是数据增强的人为影响;(4) BMA对先验尺度的选择具有较强的鲁棒性,对对角高斯、混合高斯和logistic先验的选择具有较强的相似性;(5)贝叶斯神经网络在域移下泛化性能差;(6)虽然深度集成和SGMCMC等廉价方法可以提供良好的泛化,但它们提供的预测分布与HMC不同。值得注意的是,深度集成预测分布与标准SGLD的HMC相似,比标准变分推断更接近。

https://www.zhuanzhi.ai/paper/175b8f7c93633d4479ce659fce81c737

成为VIP会员查看完整内容
32

相关内容

专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
35+阅读 · 2021年6月3日
专知会员服务
80+阅读 · 2021年5月10日
【NeurIPS2020】基于能量的分布外检测
专知会员服务
13+阅读 · 2020年10月10日
L1和L2正则先验分别服从什么分布
七月在线实验室
11+阅读 · 2019年5月8日
10道题,测一测你的AI水平到底如何
七月在线实验室
8+阅读 · 2018年7月17日
L2正则化视角下的对抗样本
极市平台
7+阅读 · 2018年7月13日
如何改进梯度下降算法
论智
9+阅读 · 2018年4月19日
Metric-Distortion Bounds under Limited Information
Arxiv
0+阅读 · 2021年7月6日
Arxiv
0+阅读 · 2021年7月5日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
A General and Adaptive Robust Loss Function
Arxiv
7+阅读 · 2018年11月5日
VIP会员
相关VIP内容
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
38+阅读 · 2021年6月11日
专知会员服务
35+阅读 · 2021年6月3日
专知会员服务
80+阅读 · 2021年5月10日
【NeurIPS2020】基于能量的分布外检测
专知会员服务
13+阅读 · 2020年10月10日
微信扫码咨询专知VIP会员