后验贝叶斯神经网络(BNN)参数是非常高维和非凸的。出于计算上的原因,研究人员使用廉价的小批量方法来近似这种后变方法,如平均场变分推断或随机梯度马尔科夫链蒙特卡罗(SGMCMC)。为了研究贝叶斯深度学习中的基础问题,我们在现代体系结构中使用全批量哈密顿蒙特卡罗(HMC)。我们证明: (1)与标准训练和深度集成相比,BNNs可以获得显著的性能增益; (2)单一的HMC长链可以提供多个较短链后验的可比性表示;(3)与最近的研究相比,我们发现不需要后验回火来获得接近最佳的性能,几乎没有证据表明存在“冷后验”效应,这主要是数据增强的人为影响;(4) BMA对先验尺度的选择具有较强的鲁棒性,对对角高斯、混合高斯和logistic先验的选择具有较强的相似性;(5)贝叶斯神经网络在域移下泛化性能差;(6)虽然深度集成和SGMCMC等廉价方法可以提供良好的泛化,但它们提供的预测分布与HMC不同。值得注意的是,深度集成预测分布与标准SGLD的HMC相似,比标准变分推断更接近。
https://www.zhuanzhi.ai/paper/175b8f7c93633d4479ce659fce81c737