「神经常微分方程」提出者之一David Duvenaud:如何利用深度微分方程模型处理连续时间动态

2020 年 7 月 2 日 机器之心

2020 WAIC·开发者日将于7月10日-11日线上举办。多伦多大学助理教授、向量学院联合创始人、NeruIPS 2018 最佳论文奖得主,将带着对微分方程和连续时间的最新思考出现在 WAIC 开发者日。


提到 David Duvenaud 你或许有些陌生,但最近大热的「神经常微分方程」想必你一定听说过。

《Neural Ordinary Differential Equations》获得 NeruIPS 2018 最佳论文奖,David Duvenaud 正是该论文的通讯作者,也是论文一作陈天琦的导师。


David Duvenaud 是多伦多大学向量学院的创始人之一,能源预测和贸易公司 Invenia 的联合创始人,目前在多伦多大学担任计算机科学助理教授。

他在剑桥大学获得博士学位,后在哈佛大学 Intelligent Probabilistic Systems 实验室完成博后工作。

目前,他在多伦多大学教授概率学习和推理、机器学习统计方法、可微分推断和生成模型等课程,指导的学生有陈天琦、Jesse Bettencourt、Dami Choi、Will Grathwohl、Eric Langlois、Jonathan Lorraine、Jacob Kelly 和 Winnie Xu。

David Duvenaud 与微分方程的羁绊

David Duvenaud 的主要研究方向是连续时间模型、隐变量模型和深度学习。近年来,他的工作和微分方程产生了紧密联系。

深度学习能够与微分方程相结合?是的。在 NeruIPS 2018 获奖论文中,陈天琦、David Duvenaud 等人将二者相结合,进行架构创新,提出一类新型深度神经网络「神经常微分方程」(ODEnet)。它不拘于对已有架构的修修补补,而是完全从另外一个角度考虑如何以连续的方式借助神经网络对数据建模。

借助微分方程,ODEnet 将神经网络离散的层级连续化了,因此反向传播也不再需要一点一点传、一层一层更新参数。

论文参与者认为,既然残差连接就是常微分方程(ODE)的离散化,那么常规神经网络的前向传播过程岂不就是微分方程给定初值解末值的过程?如果用业界成熟的微分方程求解器(ODE Solver)解某个 ODE,这不就能代替前传和反传么?

于是他们在 ODENet 中使用神经网络参数化隐藏状态的导数,而不是如往常那样直接参数化隐藏状态。这里参数化隐藏状态的导数就类似构建了连续性的层级与参数,而不再是离散的层级。因此参数也是一个连续的空间,我们不需要再分层传播梯度与更新参数。

这篇论文证明了常微分方程可以解决复杂问题,算是对之前相关研究的一次总结。

该论文获奖后获得了大量关注,而后来的一件事又把它推到了风头浪尖。

获奖一年后,David Duvenaud 在 NeruIPS 2019 大会上发表演讲,回顾了 NeruIPS 2018 获奖研究 ODENet。

在演讲中,他阐明了 ODENet 论文的几点问题,如论文最终选择「Neural Ordinary Differential Equations」作为标题是因为它短小精悍,更容易引发关注;做这项研究的动机是为了讨好 Dougal Maclaurin、Matthew Johnson 这些前辈;在对比不同方法的参数效能时,该研究没有对基线方法进行微调;该研究认为使用 ODE 求解器能够根据给定的误差容忍度选择适当的步长逼近真实解,但 ODE 领域研究者认为,ODE 求解器并不总是有效……

这段演讲再次引发了大量讨论,很多人表示理解,并认为 David Duvenaud 非常坦诚。

不管是否存在争论,David Duvenaud 对微分方程的研究没有停下。

发表 ODENet 后不久,David Duvenaud 等人再次利用常微分方程提出新架构——可逆残差网络。这次他们利用 ResNet 作为常微分方程的 Euler 离散化,并证明通过简单地改变标准 ResNet 的归一化机制就可以构建可逆 ResNet。

2019 年 12 月,David Duvenaud 与陈天琦合作发表论文《Neural Networks with Cheap Differential Operators》,探讨了如何使用廉价的可微算子处理神经网络架构的梯度计算。

今年初,David Duvenaud 等人发布论文《Scalable Gradients for Stochastic Differential Equations》,将计算常微分方程解的梯度的 adjoint sensitivity 方法应用于随机微分方程。

微分方程与连续时间动态

从 NeruIPS 2018 最佳论文「神经常微分方程」到基于常微分方程构建的可逆残差网络,再到今年年初的《Scalable Gradients for Stochastic Differential Equations》,David Duvenaud 与常微分方程的羁绊不可谓不深。

在不久后举行的 2020 年世界人工智能大会云端峰会开发者日专场,David Duvenaud 将分享他对连续时间模型的思考,此次演讲同样涉及微分方程。

离散时间和连续时间差别巨大。许多现实数据,如病历、客户交互或金融交易,是以不规则时间间隔记录的。但是,大部分深度学习时序模型(如循环神经网络)要求数据以规则的时间间隔记录,如每小时记录一次。

那么如何处理连续时间动态呢?

David Duvenaud 将在此次演讲中介绍, 利用深度微分方程模型来处理连续时间动态方面的近期进展 ,这类模型可以拟合新的基于时序的丰富参数化分布。此外,该演讲还将讨论这类模型的优缺点,以及它们在病历和运动捕捉数据上的效果。


关于2020 WAIC·开发者日

2020 WAIC·开发者日将于 7月10日-11日 在线上举办,设置主论坛、分论坛、高峰对话、开发者日百度公开课、开源开放Demo Day、黑客马拉松等多个环节。

目前,我们已公布了主论坛、百度公开课、开源开放Demo Day的日程介绍,更多精彩日程揭秘,敬请关注后续报道。


2020 WAIC· 开发者日全程线上举办,播链接将于 7 月初公布。 但在主论坛期间,我们计划在上海组织一场小型看直播、聊人生的现场活动,时间 7月11日13:00—18:15,坐标上海世博中心只限100。同时我们准备了一些书籍与礼品在现场赠送,具体活动信息详见开发者日主论坛日程介绍

如何报名?

添加机器之心小助手微信,备注“现场”,小助手会给你发邀请码和报名链接,以及邀请你进现场面基群。

不来现场还想进群交流?添加小助手后备注“开发者日”就可以了。

登录查看更多
4

相关内容

《常微分方程》笔记,419页pdf
专知会员服务
73+阅读 · 2020年8月2日
(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建,134页ppt
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
407+阅读 · 2020年6月8日
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
48+阅读 · 2020年6月6日
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
15+阅读 · 2019年10月15日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
Yann LeCun:深度学习已死,可微分编程万岁!
深度 | 结合Logistic回归构建最大熵马尔科夫模型
机器之心
4+阅读 · 2017年11月25日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Real-time Scalable Dense Surfel Mapping
Arxiv
5+阅读 · 2019年9月10日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
12+阅读 · 2018年1月12日
Arxiv
6+阅读 · 2017年7月17日
VIP会员
相关VIP内容
相关资讯
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
Yann LeCun:深度学习已死,可微分编程万岁!
深度 | 结合Logistic回归构建最大熵马尔科夫模型
机器之心
4+阅读 · 2017年11月25日
Top
微信扫码咨询专知VIP会员