神经受控微分方程:非规则时间序列预测新SOTA

2020 年 5 月 20 日 机器之心
机器之心报道

参与:Racoon、魔王、小舟

使用神经微分方程对时间序列的动态进行建模是一个很有潜力的选择,然而目前方法的性能往往受限于对初始条件的选择。这项新研究提出了改进策略,实现了新的 SOTA 性能。
神经常微分方程是对时序动态建模的不错选择。但是,它存在一个基本问题:常微分方程的解是由其初始条件决定的,缺乏根据后续观察调整轨迹的机制。

那么如何解决这一问题呢?来自牛津大学、阿兰图灵研究所和大英图书馆的一项研究展示了,如何通过受控微分方程的数学知识解决该问题。

该研究提出的神经受控微分方程(neural controlled differential equation)模型可直接用于部分观测的不规则采样多变量时间序列的通用设置,(与之前的解决方案不同,)它甚至可以在跨观测的情况下利用节约内存的共轭反向传播(adjoint-based backpropagation)。

该研究在多个数据集上进行了实验,发现该模型超过类似的(基于 ODE 或者 RNN)模型,实现了 SOTA 性能。最后,该研究还提供了理论结果,证明该模型是通用逼近器,且该模型包含了替代性的 ODE 模型。


  • 论文链接:https://arxiv.org/abs/2005.08926

  • 代码链接:https://github.com/patrick-kidger/NeuralCDE


引言

循环神经网络(RNN)是处理序列数据(如时序数据)时常用的模型选择。通常将数据本身假定为来自潜在过程的观测序列,RNN 可以被解释为对该过程某些功能的离散近似。然而当数据是不规则采样或者不是完全可观测时,这种离散化方法通常会失效,该问题经常通过丢弃或填充数据来掩饰。一种更佳的方法是意识到,用于对潜在过程建模的模型,应该和该过程一样在时间上是连续的。

因此,针对以上问题,神经微分方程不失为一个较好的选择。然而目前方法的性能往往受限于对初始条件的选择,不能较好地捕捉时变的新数据。这项研究提出一种神经受控微分方程来解决这一问题。

方法

假设有一个完全可观测但很可能是不规则采样的时间序列:


其中每一个观测值 x_i 都具有对应的时间戳 t_i,且

定义为在 有对应 knot 的神经三次样条(natural cubic spline),于是我们可将其表示为:

x 常被假设为对一个过程的离散样本,X 可看作为对该过程的近似表示。神经三次样条处理这类任务有其自身独特的潜力。

定义为任意以θ为参数的神经网络模型。w 的值用于描述隐藏状态的大小。


同样,将 定义为任意以θ为参数的神经网络模型。


于是,可将神经受控微分方程定义为 CDE 的解:


其中 使用该初始条件是为了避免平移不变性(translational invariance)。类似于 RNN,该模型的输出可能是变化过程的状态 z,也可能是最后一个状态 z_{tn},最终预测值为对该模型输出的线性映射。下图比较了之前神经微分方程的研究与本文所提方法的不同。




不规则时间序列采样预测示意图,其中左图为之前的研究,右图为本文提出的方法。

实验结果

研究者将该研究提出的方法与 GRU-∆t、GRU-D、GRU-ODE、ODE-RNN 等现有模型,在多个数据集上进行了基准对比。

CharacterTrajectories 数据集上不同数量的缺失数据

首先,该研究展示了在不规则采样时间序列上神经 CDE 的效果。

研究者首先在 CharacterTrajectories 数据集上进行实验。该数据集包含 2858 个长度为 182 的时间序列,包括笔尖 x, y 的位置以及下笔时所用的力量。

实验结果见表 1。

表 1:不同方法在 CharacterTrajectories 数据集上的测试准确率和内存使用情况。

PhysioNet 败血症预测的观测强度

接下来,研究者考虑一个既不规则采样又不完全观测的数据集,并研究观测强度的益处。

该研究使用来自 PhysioNet2019 败血症预测挑战赛的数据。这是一个含有长度不一的 40335 个时间序列的数据集,描述了病人在 ICU 内的状态。

大多数值是缺失的,只有 10.3% 的值被观测。该研究考察了病人在 ICU 内前 72 小时的状态,预测他们在整个住院期间(有些患者长达一个月)是否会发生败血症。

实验结果如表 2 所示。由于数据集高度不平衡,该研究使用了 AUC 作为度量指标,而不是准确率。

表 2:在 PhysioNet 败血症预测数据集上的测试 AUC 和内存使用情况。

Speech Commands 数据集中的规则时间序列

最后,该研究展示了神经 CDE 模型在规则、完全观测的时间序列上的效果。

该研究使用 Speech Commands 数据集,实验结果如表 3 所示。

表 3:不同模型在 Speech Commands 数据集上的测试准确率和内存使用情况。


首届“马栏山”杯国际音视频算法大赛正在火热进行中。大赛聚焦图像和推荐、画质优化三大领域,设置包括视频特定点位追踪、视频推荐、画质损伤修复三大赛题。优秀参赛者不仅可获得奖金,获奖解决方案还有机会被应用于芒果 TV 核心领域,在校学生还将可能加入芒果 TV“青芒计划”,发放“special offer”。

识别下图二维码或点击阅读原文,立即报名参赛。

登录查看更多
8

相关内容

时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。经济数据中大多数以时间序列的形式给出。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
150+阅读 · 2020年6月28日
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
47+阅读 · 2020年6月6日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
机器学习领域必知必会的12种概率分布(附Python代码实现)
算法与数学之美
21+阅读 · 2019年10月18日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
GAN完整理论推导、证明与实现(附代码)
数据派THU
4+阅读 · 2017年10月6日
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
6+阅读 · 2019年4月4日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
6+阅读 · 2018年10月3日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关资讯
机器学习领域必知必会的12种概率分布(附Python代码实现)
算法与数学之美
21+阅读 · 2019年10月18日
可视化循环神经网络的注意力机制
论智
22+阅读 · 2018年9月23日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
基础 | GRU神经网络
黑龙江大学自然语言处理实验室
27+阅读 · 2018年3月5日
GAN完整理论推导、证明与实现(附代码)
数据派THU
4+阅读 · 2017年10月6日
相关论文
Bivariate Beta LSTM
Arxiv
5+阅读 · 2019年10月7日
Arxiv
6+阅读 · 2019年4月4日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
6+阅读 · 2018年10月3日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Top
微信扫码咨询专知VIP会员