【速览】IJCV 2021| 基于贝叶斯学习的紧凑1比特卷积神经网络(BONN)

2021 年 11 月 16 日 中国图象图形学学会CSIG
   


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~











◆ ◆ ◆ ◆

基于贝叶斯学习的紧凑1比特卷积神经网络(BONN)

赵俊贺    , 徐昇    张宝昌    顾佳昕    , David Doermann   , 郭国栋   
   北京航空航天大学,   腾讯优图实验室,   纽约州立大学布法罗分校,
   百度深度学习研究院,   深度学习技术与应用国家工程实验室
IJCV 2021
撰稿人:徐昇

*通讯作者:张宝昌(bczhang@buaa.edu.cn)

推荐理事:林宙辰
原文标题: Towards Compact 1-bit CNNs via Bayesian Learning
原文链接:https://arxiv.org/pdf/1908.06314v1.pdf









◆ ◆ ◆ ◆


摘要

与全精度的同类网络相比,1比特卷积神经网络(CNN)的性能通常会显著下降。在本文中,我们提出了一种基于贝叶斯学习的1比特CNN(BONN),可以显著提高1比特CNN的性能。BONN将全精度卷积核、特征和过滤器的先验分布合并到贝叶斯框架中,以端到端的方式构造1比特CNN。我们的方法可用于在卷积核分布,特征监督和滤波器剪枝中,从而同时优化网络,大大提高了1比特CNN的紧凑性和性能。我们进一步介绍了一种新的基于贝叶斯学习的1比特CNN剪枝方法,该方法显著提高了模型效率,使得我们的方法能够在各种实际场景中使用。在ImageNet、CIFAR和LFW数据集上进行的大量实验表明,与各种最先进的1比特CNN模型相比,BONN在分类性能方面达到了最佳水平。除此之外,BONN在目标检测任务上实现了很强的泛化性能。

图 1 基于贝叶斯学习的权重分布的演变

贝叶斯学习的引入有两种优点:

1、通过设计每一层权重的分布,得到更稳定的双峰分布,在sign函数的阈值0附近的权重更少,从而在训练过程中有更少的符号反转。

2、通过对每层的滤波器的分布分析,在学习过程中对具有相似分布的组进行聚类,基于最大后验概率对每个滤波器到聚类中心的距离进行最小化,从而得到具有相同分布的滤波器,进行剪枝。

 图 2 BONN训练的的总体框架

BONN的总体框架如图2所示,我们利用贝叶斯学习同时端到端地进行二值网络的训练与剪枝。我们研究了在1比特CNN的剪枝中使用贝叶斯学习的可能性,贝叶斯学习是一种成熟的全局优化方案。首先,贝叶斯学习将全精度卷积核二值化为两个量化值(中心),以获得1比特CNN。在量化误差最小化的前提下,当全精度卷积核遵循混合高斯模型时,每个高斯核以其相应的量化值为中心。给定1比特CNN的两个分布,采用构成混合模型的两个高斯函数对全精度核进行建模。随后,我们基于贝叶斯学习设计了剪枝框架来剪枝1比特CNN。特别地,我们将滤波器分成两组,假设一组中的滤波器遵循相同的高斯分布。然后使用其平均值替换该组中过滤器的权重。图2说明了我们BONN的整体框架,其中在1比特CNN的学习过程中引入了三个创新点:1)最小化量化前后参数的重建误差,2)将参数分布建模为以二值化值(-1,+1)为中心的双峰高斯混合分布,3)通过最大化后验概率剪枝量化网络。基于进一步的分析,我们得到了的三个新损失和相应的学习算法,称为贝叶斯核损失、贝叶斯特征损失和贝叶斯剪枝损失。这三种损失可在同时使用。贝叶斯学习在模型量化和剪枝过程中具有本质上的优点。所提出的损失可以进一步从权重分布和特征分布两方面全面监督1比特CNN的训练过程。

我们将BONN的训练流程具体分为两个步骤:基于贝叶斯学习的1-bit网络训练、基于贝叶斯学习的1-bit网络剪枝。

1-bit网络训练
 

给定网络权重参数   ,其量化代码应尽可能接近其原始(全精度)代码,以便量化误差最小化, 则有: 

基于贝叶斯学习,在最可能的   下(对应于   和   ,即最小重建误差),我们将   最大化以优化量化的   (例如,1比特CNN),如下所示:

从贝叶斯学习的角度来看,我们通过最大后验概率(MAP)来解决这个问题: 

在此: 

对于1比特CNN,   通常量化为两个具有相同绝对值的数。我们忽略了两个数之间的重叠,因此,   被建模为具有双峰的高斯混合分布: 

因此,优化目标可以改写为: 

我们进一步设计了一个贝叶斯特征损失,以缓解1比特CNN中极端量化过程造成的干扰。考虑到类内紧凑性,第   类的特征   假定遵循高斯分布,特征中心   ,我们定义了贝叶斯特征损失如下: 

基于上述分析,我们在同一框架中考虑了卷积核和特征的潜在分布,并引入贝叶斯损失来提高1比特CNN的能力。

1-bit网络剪枝

在对CNN进行二值化之后,我们在相同的贝叶斯学习框架下进一步修剪1比特CNN。我们认为,不同的信道可能遵循类似的分布,基于相似的信道相结合进行剪枝。从数学方面,我们通过直接扩展贝叶斯学习的基本思想,实现了关于BNN修剪的贝叶斯公式,这实际上为计算紧凑的1比特CNN提供了一种系统的方法。因此,我们定义

其中,   是三维的卷积核。为了修剪1比特CNN,我们基于冗余学习过程将相似的过滤器同化到相同的过滤器中。为此,我们首先使用K-means算法将   划分为不同的组,然后在优化过程中用每组的平均值替换每组的滤波器。这样一个过程是基于同一组中的   在训练期间遵循相同的高斯分布的假设。然后剪枝问题就变成了如何找到平均   来替换所有   ,它遵循相同的分布。因此,贝叶斯学习被用于修剪1比特CNN。我们将ε表示为滤波器与其平均值之间的差值,即   ,为了简单起见,遵循高斯分布。为了计算   ,我们在贝叶斯框架下基于映射最小化   ,并且: 

因此,我们可以得到: 

综上所述,我们我们使用三个贝叶斯损失来优化1比特CNN,这形成了我们的BONN。为此,我们重新制定了第一个用于训练损失函数为: 

在训练完成后,贝叶斯剪枝损失   用于特征信道的优化,其可写为:

综上,将交叉熵损失   、贝叶斯优化损失   和贝叶斯修剪损失   聚合在一起,以构建总体损失函数,如下所示: 

上述内容从理论上分析了我们BONN的作用,实验时我们在多个任务上测试了BONN的效果(包括图像分类、目标检测、人脸识别)。我们在包括CIFAR-10/100、ImageNet、PASCAL VOC、COCO、LFW、CFP、AgeDB的数据集上进行测试,来验证其性能。

在图像分类任务上,基于ImageNet数据集,我们在ResNet-18/50、MobileNet骨架网络上验证了BONN的有效性。如表1所示,我们达到了新的行业领先效果。特别的,我们的BONN* 将预先训练的ReActNet在Top-1精度方面提高了0.3% (Top-1 66.2%)。然而,ReActNet没有从预先训练的权重中获得任何改进。

表 1 ImageNet数据集上的图像分类效果 

在人脸识别任务上,BONN在LFW、CFP、AgeDB数据集上取得了最优的效果,领先于XNOR-Net与PCNN。

表 2  人脸识别任务上的效果

在目标检测任务上,在基于ResNet-18骨架网络的Faster-RCNN检测器上,BONN分别在PASCAL VOC与COCO数据集上取得了63.4%与19.8%的mAP;在基于VGG-16骨架网络的SSD检测器上,BONN分别在PASCAL VOC与COCO数据集上取得了69.0%与16.7%的mAP,均为行业领先。

表 3 PASCAL VOC数据集上的实验效果

表 4 COCO数据集上的实验效果

在剪枝任务上,我们先运用主成分分析,验证了我们的高斯分布假设(图3)。如表5所示,在ImageNet数据集上,BONN剪枝方法对全精度ResNet-18模型与1比特ResNet-18模型能达到较好的效果。 

图 3 使用主成分分析(PCA)在贝叶斯剪枝中可视化ResNet-18的滤波核

表 5 ImageNet数据集上的模型剪枝效果

这篇文章提出的BONN方法同时考虑了全精度卷积核与特征分布,将全精度卷积核、特征和滤波器的先验分布纳入贝叶斯框架,以全面的端到端方式构建1比特CNN。这证明了贝叶斯学习算法可以被用提高1比特CNN的紧凑性和效果。在多个任务与数据集上的大量实验表明,BONN具有最佳的性能。在未来,我们将结合我们的方法和神经结构搜索(NAS)来构建数据自适应的1比特CNN。我们还将尝试贝叶斯优化,以找到CNN的最佳剪枝率。

参考文献

[1] Gu, J., Zhao, J., Jiang, X., Zhang, B., Liu, J., Guo, G., Ji, R.: Bayesian optimized 1-bit cnns. In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4909–4917 (2019)

[2] Liu, Z., Luo, W., Wu, B., Yang, X., Liu, W., Cheng, K.T.: Bi-real net: Binarizing deep network towards real-network performance. International Journal of Computer Vision 128(1), 202–219 (2020).

[3] Lin, M., Ji, R., Wang, Y., Zhang, Y., Zhang, B., Tian, Y., Shao, L.: Hrank: Filter pruning using high-rank feature map. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1529–1538 (2020).

[4] Xu, S., Zhao, J., Lu, J., Zhang, B., Han, S., Doermann, D.: Layer-wise searching for 1-bit detectors. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5682–5691 (2021).

[5] Wang, Z., Wu, Z., Lu, J., Zhou, J.: Bidet: An efficient binarized object detector. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 2049–2058 (2020).

[6] Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: Proceedings of the Advances in Neural Information Processing Systems, pp. 91–99 (2015).
[7] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.: Ssd: Single shot multibox detector. In: Proceedings of the European Conference on Computer Vision, pp. 21–37 (2016).
[8] Gu, J., Li, C., Zhang, B., Han, J., Cao, X., Liu, J., Doermann, D.: Projection convolutional neural networks for 1-bit cnns via discrete back propagation. In: Proceedings of the AAAI Conference on Artificial Intelligence (2019).
[9] Liu, Z., Shen, Z., Savvides, M., Cheng, K.T.: Reactnet: Towards precise binary neural network with generalized activation functions. In: Proceedings of the European Conference on Computer Vision, pp. 143–159 (2020).




中国图象图形学学会关于组织开展科技成果鉴定的通知

CSIG图像图形中国行承办方征集中

登录查看更多
0

相关内容

【WWW2022】互信息压缩的紧凑图结构学习
专知会员服务
32+阅读 · 2022年1月17日
专知会员服务
35+阅读 · 2021年8月17日
专知会员服务
21+阅读 · 2021年7月28日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
18+阅读 · 2021年4月4日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【速览】TNNLS 2022 | DualConv:用于轻量级深度神经网络的双卷积核
中国图象图形学学会CSIG
2+阅读 · 2022年4月11日
【速览】IJCV 2022 | 自适应干扰解耦学习的人脸表情识别方法(ADDL)
中国图象图形学学会CSIG
6+阅读 · 2022年2月15日
【速览】ICCV 2021丨Oriented R-CNN:有向目标检测
中国图象图形学学会CSIG
0+阅读 · 2021年8月25日
论文荐读:理解图表示学习中的负采样
学术头条
29+阅读 · 2020年5月29日
干货 | 深入理解深度学习中的激活函数
计算机视觉life
16+阅读 · 2019年1月29日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Automated Data Augmentations for Graph Classification
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关VIP内容
【WWW2022】互信息压缩的紧凑图结构学习
专知会员服务
32+阅读 · 2022年1月17日
专知会员服务
35+阅读 · 2021年8月17日
专知会员服务
21+阅读 · 2021年7月28日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
18+阅读 · 2021年4月4日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
相关资讯
【速览】TNNLS 2022 | DualConv:用于轻量级深度神经网络的双卷积核
中国图象图形学学会CSIG
2+阅读 · 2022年4月11日
【速览】IJCV 2022 | 自适应干扰解耦学习的人脸表情识别方法(ADDL)
中国图象图形学学会CSIG
6+阅读 · 2022年2月15日
【速览】ICCV 2021丨Oriented R-CNN:有向目标检测
中国图象图形学学会CSIG
0+阅读 · 2021年8月25日
论文荐读:理解图表示学习中的负采样
学术头条
29+阅读 · 2020年5月29日
干货 | 深入理解深度学习中的激活函数
计算机视觉life
16+阅读 · 2019年1月29日
论文 | YOLO(You Only Look Once)目标检测
七月在线实验室
14+阅读 · 2017年12月12日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员