近年来,深度学习已经将自己定位为机器学习最有前途的方向之一。然而,深度神经网络在不确定性估计、模型选择、先验知识的整合等方面存在许多不足。幸运的是,所有这些问题都可以在贝叶斯深度学习框架内克服,使用贝叶斯神经网络、变分自编码器或深度神经网络高斯过程等模型。不幸的是,这需要使用近似推理过程和先验分布的规范。在这篇论文中,我们展示了这些模型中先验规范不仅仅是一个麻烦,而是一个宝贵的机会,可以将领域知识和归纳偏见加入到学习算法中,从而提升全新应用的性能。为此,我们对相关文献进行了全面的回顾,并进一步贡献了不同的原创研究成果。
具体地说,我们证明了变分自编码器中的高斯过程先验可以改进时间序列的表示学习,并允许对缺失数据进行有效的插补,同时还可以提供校准的不确定性估计。我们还表明,通过使用变分高斯-马尔可夫过程,这是可能的,在没有显著的额外计算成本。此外,我们表明,在变分自编码器中使用自组织映射作为结构归纳偏差,可以提高学习表示的可解释性,并使有效的潜在聚类。这些聚类表示可以作为潜在时间序列模型的输入,从而准确地预测未来的状态。在贝叶斯神经网络中,我们证明了常用的各向同性高斯先验不仅会导致次优性能,而且在某些情况下还会产生所谓的冷后验效应,即经过缓和的后验比真正的贝叶斯后验表现更好。相反,我们提出了具有重尾性和空间相关性的备选先验,可以提高性能,缓解冷后验效应。最后,当没有先验知识可用时,我们表明先验分布可以在元学习环境中从相关任务中学习。在深度神经网络高斯过程的情况下,我们表明元学习的均值函数和核函数的先验改进预测性能和不确定性估计。
我们希望本文将为贝叶斯深度学习框架奠定基础,在该框架中,先验分布的选择将被视为建模任务的关键部分,手工设计和元学习的先验将在任务之间自由共享,以实现贝叶斯深度学习。
https://www.research-collection.ethz.ch/handle/20.500.11850/523269