Bayesian Neural Networks (BNNs) offer a probabilistic interpretation for deep learning models by imposing a prior distribution over model parameters and inferencing a posterior distribution based on observed data. The model sampled from the posterior distribution can be used for providing ensemble predictions and quantifying prediction uncertainty. It is well-known that deep learning models with a lower sharpness have a better generalization ability. Nonetheless, existing posterior inferences are not aware of sharpness/flatness, hence possibly leading to high sharpness for the models sampled from it. In this paper, we develop theories, the Bayesian setting, and the variational inference approach for the sharpness-aware posterior. Specifically, the models sampled from our sharpness-aware posterior and the optimal approximate posterior estimating this sharpness-aware posterior have a better flatness, hence possibly possessing a higher generalization ability. We conduct experiments by leveraging the sharpness-aware posterior with the state-of-the-art Bayesian Neural Networks, showing that the flat-seeking counterparts outperform their baselines in all metrics of interest.


翻译:对深层学习模型来说,BNNS(BNNs)提供一种概率解释,先对模型参数进行分布,然后根据观察到的数据推断后方分布。从后方分布中取样的模型可用于提供共同预测和量化预测不确定性。众所周知,低锐度的深层学习模型具有更好的概括性能力。尽管如此,现有的后方推论并不了解锐度/增缩性,从而可能导致从中取样的模型的高度清晰度。在本文中,我们开发了理论、贝叶斯设置和锐度-觉悟远端网络的变推法方法。具体地说,从我们的锐度-敏度-觉后方分布中取样的模型和估计这种锐度-敏度-觉的远端图像的最佳近似近似的远端模型具有更好的统一性,因此可能具有更高的概括性能力。我们通过利用直度-觉后方的后方和状态-Bayesian神经网络的基线来进行实验。我们开发了精确度-觉测深度-辨识度-觉测深度后方网络的理论和变推法方法。具体地说,从我们的锐度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-敏度-光度-光度-光度网络网格网络中显示所有定的模型的模型的模型中显示所有定的模型的模型的模型的模型的模型的模型显示出其所有的基线的模型的模型中显示其所有定式模型的底表。

0
下载
关闭预览

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
专知会员服务
42+阅读 · 2020年12月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
14+阅读 · 2022年10月15日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
12+阅读 · 2021年5月3日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关论文
Arxiv
14+阅读 · 2022年10月15日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
12+阅读 · 2021年5月3日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
19+阅读 · 2018年6月27日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员