Binary neural networks (BNNs) represent original full-precision weights and activations into 1-bit with sign function. Since the gradient of the conventional sign function is almost zero everywhere which cannot be used for back-propagation, several attempts have been proposed to alleviate the optimization difficulty by using approximate gradient. However, those approximations corrupt the main direction of factual gradient. To this end, we propose to estimate the gradient of sign function in the Fourier frequency domain using the combination of sine functions for training BNNs, namely frequency domain approximation (FDA). The proposed approach does not affect the low-frequency information of the original sign function which occupies most of the overall energy, and high-frequency coefficients will be ignored to avoid the huge computational overhead. In addition, we embed a noise adaptation module into the training phase to compensate the approximation error. The experiments on several benchmark datasets and neural architectures illustrate that the binary network learned using our method achieves the state-of-the-art accuracy. Code will be available at \textit{https://gitee.com/mindspore/models/tree/master/research/cv/FDA-BNN}.


翻译:二进神经网络(BNNS) 代表原始全精度加权和激活, 并带有符号功能。 由于常规标志功能的梯度几乎是零, 到处几乎是零, 无法用于反反向调整, 提议了几次尝试来减轻优化难度, 使用近似梯度。 但是, 这些近似会腐蚀实际梯度的主要方向。 为此, 我们提议使用培训BNS的正弦函数组合, 即频率域近似( FDA) 来估计四流频域的标志功能的梯度。 提议的方法不会影响原始标志功能的低频信息, 即占整个能量大部分的信号, 高频系数将被忽略以避免巨大的计算管理。 此外, 我们将噪音适应模块嵌入培训阶段, 以弥补近似错误。 几个基准数据集和神经结构的实验表明, 使用我们的方法学习的二进网实现了状态- 。 代码将在\ textit{https://gitee. com/ mindpore/ mestre/ astrain/ train/ reskain/ researsearch.

3
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
5+阅读 · 2020年3月17日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
Deep Learning(深度学习)各种资料网址
数据挖掘入门与实战
11+阅读 · 2017年10月31日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员