【纽约大学】贝叶斯深度学习和泛化性的概率观点,附27页PPT下载

2020 年 2 月 25 日 专知
【纽约大学】贝叶斯深度学习和泛化性的概率观点,附27页PPT下载

【导读】纽约大学的Andrew Gordon Wilson和Pavel Izmailov在论文中从概率角度的泛化性对贝叶斯深度学习进行了探讨。贝叶斯方法的关键区别在于它是基于边缘化,而不是基于最优化的,这为它带来了许多优势。


纽约大学的论文《Bayesian Deep Learning and a Probabilistic Perspective of Generalization》从概率角度的泛化性对贝叶斯深度学习进行了探讨。论文的地址为:

  • https://arxiv.org/pdf/2002.08791.pdf


下面我们简单介绍一下文章的内容。


摘要


贝叶斯方法的关键区别是边缘化,而不是使用单一的权重设置。贝叶斯边缘化可以特别提高现代深度神经网络的准确性和校准,这是典型的不由数据完全确定,可以代表许多令人信服的但不同的解决方案。我们证明了深度集成为近似贝叶斯边缘化提供了一种有效的机制,并提出了一种相关的方法,通过在没有显著开销的情况下,在吸引域边缘化来进一步改进预测分布。我们还研究了神经网络权值的模糊分布所隐含的先验函数,从概率的角度解释了这些模型的泛化性质。从这个角度出发,我们解释了那些对于神经网络泛化来说神秘而独特的结果,比如用随机标签来拟合图像的能力,并证明了这些结果可以用高斯过程来重现。最后,我们提供了校正预测分布的贝叶斯观点。


泛化性的概率观点


  • (a)理想情况下,模型支持大范围的数据集,但存在归纳偏差,为正在考虑的某一类问题提供了很高的先验概率。在CIFAR-10中,卷积神经网络CNN比线性模型和全连接的MLP更受欢迎(虽然我们不认为MLP模型通常具有较差的归纳偏差,但这里我们考虑的是一个涉及图像和一个非常大的MLP的假设示例)。

  • (b)通过表示一个大的假设空间,一个模型可以围绕一个真正的解决方案进行收缩,而在现实世界中,真正的解决方案往往是非常复杂的。

  • (c)如果支持被截断,模型将收敛到一个错误的解决方案。

  • (d)即使假设空间包含真理,一个模型也不会有效收缩,除非它也有合理的归纳偏差。




文章大致内容


本文从概率角度的泛化性对贝叶斯深度学习进行了探讨。贝叶斯方法的关键区别在于它是基于边缘化,而不是基于最优化的,在这里我们用所有参数的后验概率加权来表示解决方案,而不是把所有的东西都押在一个参数设置上。神经网络通常不由数据完全确定,可以代表许多不同但高性能的模型,这对应着不同的参数设置,这正是边缘化将对精度和校准产生最大的影响。此外,我们还澄清了最近的深度集成并不是贝叶斯推理的竞争方法,而是一种强制性的贝叶斯边缘化机制。事实上,我们的经验证明,与标准贝叶斯方法相比,深度集成可以提供更好的贝叶斯预测分布近似值。我们进一步提出了一种新的方法,灵感来自于深度集成,它在吸引域边缘化,实现了性能的显著提高,并使用了相似的训练时间。


文章的目录如下:

  • 简介

  • 相关工作

  • 贝叶斯边缘化

    • 深度学习中边缘化的重要性

    • 蒙特卡洛之外

    • 深度集成是一种贝叶斯模型平均方法

  • 边缘化的经验研究

  • 神经网络先验

    • 深度图像先验和随机网络特征

    • 先验类别关联

    • CIFAR-10数据集上先验方差的影响

  • 重新思考泛化性

  • 讨论

    • 贝叶斯神经网络先验的未来

    • “但这是真正的贝叶斯么?


便捷查看下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“BDLPPG” 就可以获取《Bayesian Deep Learning and a Probabilistic Perspective of Generalization》27页PDF专知下载链接索引

参考链接:

  • https://arxiv.org/pdf/2002.08791.pdf




专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资料
登录查看更多
7

相关内容

贝叶斯方法可以用于学习神经网络权重的概率分布。将神经网络中的wi 和 b 由确定的值变成分布(distributions)。具体而言,为弥补反向传播的不足,通过在模型参数或模型输出上放置概率分布来估计。在权重上放置一个先验分布,然后尝试捕获这些权重在给定数据的情况下变化多少来模拟认知不确定性。该方法不是训练单个网络,而是训练网络集合,其中每个网络的权重来自共享的、已学习的概率分布。

近年来,神经网络已成为分析复杂和抽象数据模型的有力工具。然而,它们的引入本质上增加了我们的不确定性,即分析的哪些特征是与模型相关的,哪些是由神经网络造成的。这意味着,神经网络的预测存在偏差,无法与数据的创建和观察的真实本质区分开来。为了尝试解决这些问题,我们讨论了贝叶斯神经网络:可以描述由网络引起的不确定性的神经网络。特别地,我们提出了贝叶斯统计框架,它允许我们根据观察某些数据的根深蒂固的随机性和我们缺乏关于如何创建和观察数据的知识的不确定性来对不确定性进行分类。在介绍这些技术时,我们展示了如何从原理上获得神经网络预测中的误差,并提供了描述这些误差的两种常用方法。我们还将描述这两种方法在实际应用时如何存在重大缺陷,并强调在使用神经网络时需要其他统计技术来真正进行推理。

成为VIP会员查看完整内容
0
97

【导读】纽约大学的Andrew Gordon Wilson和Pavel Izmailov在论文中从概率角度的泛化性对贝叶斯深度学习进行了探讨。贝叶斯方法的关键区别在于它是基于边缘化,而不是基于最优化的,这为它带来了许多优势。

贝叶斯方法的关键区别是边缘化,而不是使用单一的权重设置。贝叶斯边缘化可以特别提高现代深度神经网络的准确性和校准,这是典型的不由数据完全确定,可以代表许多令人信服的但不同的解决方案。我们证明了深度集成为近似贝叶斯边缘化提供了一种有效的机制,并提出了一种相关的方法,通过在没有显著开销的情况下,在吸引域边缘化来进一步改进预测分布。我们还研究了神经网络权值的模糊分布所隐含的先验函数,从概率的角度解释了这些模型的泛化性质。从这个角度出发,我们解释了那些对于神经网络泛化来说神秘而独特的结果,比如用随机标签来拟合图像的能力,并证明了这些结果可以用高斯过程来重现。最后,我们提供了校正预测分布的贝叶斯观点。

成为VIP会员查看完整内容
0
55
小贴士
相关论文
Do RNN and LSTM have Long Memory?
Jingyu Zhao,Feiqing Huang,Jia Lv,Yanjie Duan,Zhen Qin,Guodong Li,Guangjian Tian
13+阅读 · 2020年6月10日
Shangwen Lv,Yuechen Wang,Daya Guo,Duyu Tang,Nan Duan,Fuqing Zhu,Ming Gong,Linjun Shou,Ryan Ma,Daxin Jiang,Guihong Cao,Ming Zhou,Songlin Hu
9+阅读 · 2020年4月12日
Emmanuel Bengio,Joelle Pineau,Doina Precup
7+阅读 · 2020年3月13日
The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study
Daniel S. Park,Jascha Sohl-Dickstein,Quoc V. Le,Samuel L. Smith
3+阅读 · 2019年5月9日
Parsimonious Bayesian deep networks
Mingyuan Zhou
3+阅读 · 2018年10月17日
Joaquin Vanschoren
109+阅读 · 2018年10月8日
Keyulu Xu,Weihua Hu,Jure Leskovec,Stefanie Jegelka
17+阅读 · 2018年10月1日
Supervised classification of Dermatological diseases by Deep learning
Sourav Mishra,Toshihiko Yamasaki,Hideaki Imaizumi
4+阅读 · 2018年7月31日
Gunnar A. Sigurdsson,Abhinav Gupta,Cordelia Schmid,Ali Farhadi,Karteek Alahari
4+阅读 · 2018年4月30日
Marc Bosch,Christopher M. Gifford,Austin G. Dress,Clare W. Lau,Jeffrey G. Skibo,Gordon A. Christie
14+阅读 · 2018年1月31日
Top