你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

会员服务 ·

你的模型刚不刚？谷歌提出“刚度”概念，探索神经网络泛化新视角

2019 年 3 月 20 日 新智元

新智元报道

来源：arxiv

编辑：肖琴

【新智元导读】Google AI的研究人员的最新研究提出一个全新概念：刚度(Stiffness)，为探索神经网络的训练和泛化问题提供了一个新视角。

Google AI的研究人员最近在arxiv发表的一篇新论文，探索了神经网络的训练和泛化问题的一个新视角。

论文题为“Stiffness: A New Perspective on Generalization in Neural Networks”，作者是谷歌 AI 苏黎世研究中心的Stanislav Fort等人。

论文提出“刚度”(stiffness)这个概念，透过这个概念研究了神经网络的训练和泛化问题。

研究人员通过分析一个示例中的小梯度步骤如何影响另一个示例的损失来测量网络的“刚度”。

具体来说，他们在4个分类数据集(MNIST、FASHION MNIST、CIFAR-10、CIFAR-100)上分析了全连接卷积神经网络的刚度。他们关注的是刚度如何随着1) 类隶属度(class membership），2)数据点之间的距离，3)训练迭代，和4)学习率而变化。

研究表明，当在固定的验证集上计算时，刚度与泛化(generalization)直接相关。刚度函数的灵活性较差，因此不太容易对数据集的特定细节进行过拟合。

结果表明，“刚度”的概念有助于诊断和表征泛化。

学习率的选择对学习函数的刚度特性有显著影响。高学习率会导致函数逼近在更大的距离上“更刚”(stiffer)，并且学习到的特征可以更好地泛化到来自不同类的输入。另一方面，较低的学习率似乎能学到更详细、更具体的特征，即使在训练集上导致同样的损失，也不能泛化到其他类。

这表明，高学习率的优势不仅在于收敛所需的步骤更少，还在于它们倾向于学习的特性具有更高的泛化性，即高学习率充当了有效的正则化器。

刚度(Stiffness)的定义

刚度的定义如下：

如果点处的损失相对于网络权重的梯度是，并且点处的梯度是，则我们定义“刚度”为。

图1：“刚度”概念的图示

如图1所示，“刚度”可以看做是通过应用基于另一个输入的梯度更新引起的输入损失的变化，相当于两个输入的梯度之间的梯度对齐(gradient alignment)。

实验和结果

基于类隶属度关系的刚度特性

我们基于验证集数据点的类隶属度(class membership )作为训练迭代函数，研究了验证集数据点的刚度特性。

对于带有真实标签的MNIST、FASHION MNIST和CIFAR-10数据集，结果分别显示为图3、图5、图6，对于带有随机排列训练集标签的MNIST数据集，结果为图4.

图3：MNIST上完全连接网络刚度的Class-membership dependence

图4：MNIST上完全连接网络刚度的Class-membership dependence，训练时使用随机排列的标签。

图5：FASHION MNIST上完全连接网络刚度的Class-membership dependence

图6：CIFAR-10上卷积神经网络刚度的Class-membership dependence

图3、图5和图6都显示了4个训练阶段的刚度矩阵：初始化阶段(任何梯度步骤之前)、优化早期阶段和两个后期阶段。

学习率对刚度的影响

图8：在MNIST 和 FASHION MNIST上以不同学习率训练，不同类别的刚度。

如图8所示，这两幅图给出了三种不同训练损失的 class dependent刚度矩阵。较高的学习率导致来自不同类的输入之间的刚度更高，表明它们学习的特性在不同类之间更加可泛化(generalizable)。

结论

我们探讨了神经网络刚度的概念，并用它来诊断和表征泛化。我们研究了在真实数据集上训练的模型的刚度，并测量了其随训练迭代、类隶属度、数据点之间的距离和学习率的选择而变化的情况。为了探讨泛化和过拟合，我们重点研究了验证集中数据点的刚度。

总结而言，本文定义了刚度的概念，证明了它的实用性，为更好地理解神经网络中的泛化特性提供了一个新的视角，并观察了其随学习率的变化。

论文地址：

https://arxiv.org/pdf/1901.09491.pdf

新智元春季招聘开启，一起弄潮AI之巅！

岗位详情请戳：

【春招英雄贴】新智元呼召智士主笔，2019勇闯AI之巅！

【2019新智元 AI 技术峰会倒计时7天】

2019年的3月27日，新智元再汇AI之力，在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云•芯世界“为主题，聚焦智能云和AI芯片的发展，重塑未来AI世界格局。

同时，新智元将在峰会现场权威发布若干AI白皮书，聚焦产业链的创新活跃，评述华人AI学者的影响力，助力中国在世界级的AI竞争中实现超越。

购票二维码

活动行购票链接：http://hdxu.cn/9Lb5U

点击文末“阅读原文”，马上参会

登录查看更多

相关内容

刚度

关注 0

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

【CVPR2020-Oral】用于深度网络的任务感知超参数

专知会员服务

28+阅读 · 2020年5月25日

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

专知会员服务

84+阅读 · 2020年2月25日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

CVPR2020 | 一个全新角度：通过量化知识来解释知识蒸馏

极市平台

12+阅读 · 2020年3月30日

你真的懂对抗样本吗？一文重新思考对抗样本背后的含义

机器之心

5+阅读 · 2019年9月16日

谷歌提出新分类损失函数：将噪声对训练结果影响降到最低

量子位

8+阅读 · 2019年8月28日

【学界】大幅减少训练迭代次数，提高泛化能力：IBM提出「新版Dropout」

GAN生成式对抗网络

7+阅读 · 2019年6月7日

田渊栋博士:求道之人，不问寒暑—理解ReLU深度网络训练动态

极市平台

7+阅读 · 2019年6月5日

告别规范化！MIT谷歌等提出全新残差学习方法，效果惊艳

AI前线

6+阅读 · 2019年3月10日

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

从零开始：教你如何训练神经网络

机器之心

5+阅读 · 2017年12月11日

Bivariate Beta LSTM

Arxiv

6+阅读 · 2019年10月7日

Dynamic Graph Representation Learning via Self-Attention Networks

Arxiv

52+阅读 · 2019年6月15日

Learning Discrete Structures for Graph Neural Networks

Arxiv

6+阅读 · 2019年5月17日

The Effect of Network Width on Stochastic Gradient Descent and Generalization: an Empirical Study

Arxiv

4+阅读 · 2019年5月9日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

Large Margin Few-Shot Learning

Arxiv

11+阅读 · 2018年7月8日

Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks

Arxiv

3+阅读 · 2018年6月6日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

VIP会员