The Neural Tangent Kernel (NTK) is the wide-network limit of a kernel defined using neural networks at initialization, whose embedding is the gradient of the output of the network with respect to its parameters. We study the "after kernel", which is defined using the same embedding, except after training, for neural networks with standard architectures, on binary classification problems extracted from MNIST and CIFAR-10, trained using SGD in a standard way. For some dataset-architecture pairs, after a few epochs of neural network training, a hard-margin SVM using the network's after kernel is much more accurate than when the network's initial kernel is used. For networks with an architecture similar to VGG, the after kernel is more "global", in the sense that it is less invariant to transformations of input images that disrupt the global structure of the image while leaving the local statistics largely intact. For fully connected networks, the after kernel is less global in this sense. The after kernel tends to be more invariant to small shifts, rotations and zooms; data augmentation does not improve these invariances. The (finite approximation to the) conjugate kernel, obtained using the last layer of hidden nodes, sometimes, but not always, provides a good approximation to the NTK and the after kernel. Training a network with a larger learning rate (while holding the training error constant) produces a better kernel, as measured by the test error of a hard-margin SVM. The after kernels of networks trained with larger learning rates tend to be more global, and more invariant to small shifts, rotations and zooms.


翻译:Neoral Tangarient Kernel (NTK) 是使用神经网络初始化时使用神经网络界定的内核的宽网络限制, 内核的嵌入是网络输出相对于参数的梯度。 我们研究“ 后内核”, 其定义是使用同一嵌入, 培训后, 用于具有标准结构的神经网络, 用于来自MNIST和CIFAR-10的二进制分类问题, 通过标准方式使用 SGD 进行训练。 对于一些在初始化时使用神经网络界定的内核内核的内核内核, 其嵌内核的内核内核的内核内核是比网络最初内核使用时的梯度更准确得多。 对于与VGGG类似结构的神经内核网络, 后内核内核内核更“ ”, 意思是, 改变输入图像, 扰乱全球图像结构, 使本地统计基本保持基本不变。 对于完全连接的网络, 在这种意义上, 后内核内核网络, 更不具有全球性的内核内核的内核, 。 在内核内核内核内核中,, 的内核内核内核中, 的内核中, 逐渐的内核中, 逐渐 逐渐 逐渐 逐渐 逐渐, 逐渐 逐渐 逐渐 逐渐 逐渐 逐渐 逐渐, 逐渐变变,,, 变, 变,,, 逐渐 变 变 变 变, 变 变,, 变 变 变 变,, 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变 变

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
0+阅读 · 2022年2月13日
Arxiv
13+阅读 · 2021年5月25日
Graph Analysis and Graph Pooling in the Spatial Domain
Arxiv
3+阅读 · 2019年3月15日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2022年2月16日
Arxiv
0+阅读 · 2022年2月16日
Arxiv
0+阅读 · 2022年2月13日
Arxiv
13+阅读 · 2021年5月25日
Graph Analysis and Graph Pooling in the Spatial Domain
Arxiv
3+阅读 · 2019年3月15日
Top
微信扫码咨询专知VIP会员