The recently-introduced class of ordinary differential equation networks (ODE-Nets) establishes a fruitful connection between deep learning and dynamical systems. In this work, we reconsider formulations of the weights as continuous-in-depth functions using linear combinations of basis functions which enables us to leverage parameter transformations such as function projections. In turn, this view allows us to formulate a novel stateful ODE-Block that handles stateful layers. The benefits of this new ODE-Block are twofold: first, it enables incorporating meaningful continuous-in-depth batch normalization layers to achieve state-of-the-art performance; second, it enables compressing the weights through a change of basis, without retraining, while maintaining near state-of-the-art performance and reducing both inference time and memory footprint. Performance is demonstrated by applying our stateful ODE-Block to (a) image classification tasks using convolutional units and (b) sentence-tagging tasks using transformer encoder units.


翻译:最近推出的普通差异方程式类别(ODE-Nets)在深层次学习和动态系统之间建立了富有成果的联系。 在这项工作中,我们重新考虑了作为连续深入功能的加权配方,使用基础功能的线性组合进行连续深入功能,从而使我们能够利用参数转换,如函数预测。反过来,这种观点又使我们能够开发出一个新的状态式的ODE-Block,处理状态式的层。这个新的ODE-Block的好处是双重的:首先,它能够将有意义的连续深入的批次正常化层纳入其中,以实现最先进的性能;其次,它能够通过基础的改变来压缩重量,而不进行再培训,同时保持接近最先进的性能,并减少时间和记忆足迹的推力。通过应用我们状态式的ODE-Block来(a) 使用变压器进行图像分类任务,以及(b) 使用变压器编码器编码装置进行句述任务,来显示绩效。

0
下载
关闭预览

相关内容

【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
17+阅读 · 2021年9月17日
最新《图理论》笔记书,98页pdf
专知会员服务
75+阅读 · 2020年12月27日
专知会员服务
53+阅读 · 2020年9月7日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
专知会员服务
61+阅读 · 2020年3月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
Keras实例:PointNet点云分类
专知
6+阅读 · 2020年5月30日
MIT线性代数(Linear Algebra)中文笔记
专知
51+阅读 · 2019年11月4日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月11日
Arxiv
0+阅读 · 2022年1月10日
Arxiv
0+阅读 · 2022年1月4日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
VIP会员
相关VIP内容
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
17+阅读 · 2021年9月17日
最新《图理论》笔记书,98页pdf
专知会员服务
75+阅读 · 2020年12月27日
专知会员服务
53+阅读 · 2020年9月7日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
专知会员服务
61+阅读 · 2020年3月19日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
Keras实例:PointNet点云分类
专知
6+阅读 · 2020年5月30日
MIT线性代数(Linear Algebra)中文笔记
专知
51+阅读 · 2019年11月4日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员