Global covariance pooling (GCP) aims at exploiting the second-order statistics of the convolutional feature. Its effectiveness has been demonstrated in boosting the classification performance of Convolutional Neural Networks (CNNs). Singular Value Decomposition (SVD) is used in GCP to compute the matrix square root. However, the approximate matrix square root calculated using Newton-Schulz iteration \cite{li2018towards} outperforms the accurate one computed via SVD \cite{li2017second}. We empirically analyze the reason behind the performance gap from the perspectives of data precision and gradient smoothness. Various remedies for computing smooth SVD gradients are investigated. Based on our observation and analyses, a hybrid training protocol is proposed for SVD-based GCP meta-layers such that competitive performances can be achieved against Newton-Schulz iteration. Moreover, we propose a new GCP meta-layer that uses SVD in the forward pass, and Pad\'e Approximants in the backward propagation to compute the gradients. The proposed meta-layer has been integrated into different CNN models and achieves state-of-the-art performances on both large-scale and fine-grained datasets.


翻译:GCP 用于计算矩阵平方根。 然而,使用 Newton-Schulz 迭代计算出的大约矩阵平方根比通过 SVD\ cite{li2018towards} 计算的准确数字要好。 我们从数据精确度和梯度平滑度的角度从数据精确度的角度对性能差距背后的原因进行了实验分析,对计算平滑的 SVD 梯度的各种补救措施进行了调查。根据我们的观察和分析,为基于 SVD 的 GCP 元层提出了混合培训协议,这样,就可以在牛顿-Schulz 梯度上实现竞争性性能。此外,我们提议一个新的GCP 元层,在前方通过 SVD 计算出来,在后方和高坡度平滑度上使用SVD,Pad\ 高级Approximants 在后方和高压级的SICISDA和高压度上,拟议在后方和低级的SISISDSBS上都实现了。

0
下载
关闭预览

相关内容

奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,奇异值分解则是特征分解在任意矩阵上的推广。在信号处理、统计学等领域有重要应用。
专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
76+阅读 · 2021年3月16日
【经典书】线性代数元素,197页pdf
专知会员服务
55+阅读 · 2021年3月4日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
15+阅读 · 2020年7月27日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Higher Order Targeted Maximum Likelihood Estimation
Arxiv
0+阅读 · 2021年6月23日
Arxiv
9+阅读 · 2021年4月8日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
76+阅读 · 2021年3月16日
【经典书】线性代数元素,197页pdf
专知会员服务
55+阅读 · 2021年3月4日
专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
15+阅读 · 2020年7月27日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员