In this work, we study the 1-bit convolutional neural networks (CNNs), of which both the weights and activations are binary. While being efficient, the classification accuracy of the current 1-bit CNNs is much worse compared to their counterpart real-valued CNN models on the large-scale dataset, like ImageNet. To minimize the performance gap between the 1-bit and real-valued CNN models, we propose a novel model, dubbed Bi-Real net, which connects the real activations (after the 1-bit convolution and/or BatchNorm layer, before the sign function) to activations of the consecutive block, through an identity shortcut. Consequently, compared to the standard 1-bit CNN, the representational capability of the Bi-Real net is significantly enhanced and the additional cost on computation is negligible. Moreover, we develop a specific training algorithm including three technical novelties for 1- bit CNNs. Firstly, we derive a tight approximation to the derivative of the non-differentiable sign function with respect to activation. Secondly, we propose a magnitude-aware gradient with respect to the weight for updating the weight parameters. Thirdly, we pre-train the real-valued CNN model with a clip function, rather than the ReLU function, to better initialize the Bi-Real net. Experiments on ImageNet show that the Bi-Real net with the proposed training algorithm achieves 56.4% and 62.2% top-1 accuracy with 18 layers and 34 layers, respectively. Compared to the state-of-the-arts (e.g., XNOR Net), Bi-Real net achieves up to 10% higher top-1 accuracy with more memory saving and lower computational cost. Keywords: binary network, binary CNNs, binary convolution, 1-bit CNNs, 1-layer-per-block


翻译:在这项工作中,我们研究了1位数的神经神经网络(CNNs),其重量和激活都是二进制的。虽然是有效的,但当前1位数的CNN的分类准确性比其在大型数据集(如图像网)上的对应的1位数的CNN模型要差得多。为了尽可能缩小1位数和实际价值的CNN模型之间的性能差距,我们提出了一个新颖的模型,称为Bi-Real网,它将真正的启动(在1位数的螺旋直流和(或)BatchNorm层之后,在信号功能之前)与连续的链块的激活连接起来。虽然是高效的,但目前的1位数的CNN的分类准确性却比对应的1位数要差得多。此外,我们开发了一个专门的培训算法,包括1位数的3个技术新版本。首先,我们从一个不可辨别的硬信号函数的衍生物(在1位数、5级数级数的直径直径直径的直径直径直径直径直径直径直径直径直径直径直径直径直径直径直径直径直径直、34的网络直的网络直径直地),然后用连续列的网络直的网络基的网络直到连续行的网络段段段段段段段段段段段段段段段段段段段段段。我们建议,我们建议用10位数的模型级的模型,, 。我们提议算到一个比重的模型级,分别算法到比重更深距到比重的深度距直距比重的深度距比重的深度距比重的深度距直至18级,比重。第三。我们建议,比重的基,比重更近至直至近至直至直至直至右路距直到右路距比重的深度距比重。第三, 。我们提议算法路段次直距直距比重的一级距直距直距直距直距直距直距直距直距直距直至右, 。第三。我们提议算, 。我们提议在25的一级距距距距距比重的深度距直距距距比重的深度距直距直距直距直路距

0
下载
关闭预览

相关内容

【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2019年6月5日
Adversarial Reprogramming of Neural Networks
Arxiv
3+阅读 · 2018年6月28日
Arxiv
8+阅读 · 2018年3月20日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员