深度学习在过去十年里引发了革命性变化,它在计算机视觉、自然语言处理和强化学习等众多任务中取得了非凡的进展,仅举几例。然而,众所周知,通过最大似然估计训练的深度模型往往过于自信,并给出校准不良的预测。贝叶斯深度学习试图通过对模型参数设置先验来解决这个问题,这些先验然后与似然结合以进行后验推断。不幸的是,对于深度模型,真实的后验是不可解的,迫使用户不得不使用近似方法。 在这篇论文中,我们探索了使用变分推断作为一种近似方法,因为它在同时近似后验和提供边缘似然的下界方面是独一无二的。如果这个下界足够紧,它可以用来优化超参数并促进模型选择。然而,这种能力很少在贝叶斯神经网络中充分利用,可能是因为实践中通常使用的近似后验缺乏有效约束边缘似然的灵活性。因此,我们探讨了三个方面的贝叶斯学习用于深度模型。首先,我们的调查从询问是否有必要对尽可能多的参数进行推断开始,或者是否可以将许多参数视为我们针对边缘似然进行优化的超参数。这会带来显著的计算节省;然而,我们观察到这可能导致病态行为和严重的过拟合,表明最好尽可能“完全贝叶斯”。接着,我们通过提出一种变分后验,为贝叶斯神经网络和深度高斯过程中的推断提供了一个统一的视角,我们展示了这种方法足够灵活,可以利用增加的先验超参数。最后,我们展示了如何通过从后验中解析地移除对称性,并在Gram矩阵而不是特征上进行推断,来改进某些深度高斯过程模型中的变分推断。虽然我们没有直接调查我们的改进对模型选择的应用,但我们希望我们的贡献能为未来充分实现变分推断的承诺提供一个基石。