图2 二次方插帧模型的流程 、、 和是输入视频连续的四帧。给定任意时刻t(0<t<1),该模型将最终生成t时刻的中间帧。而要得到,就需要更深入了解其中的两个关键技术:二次方光流预测和光流逆转。其中,二次方光流预测,就是中学物里面常讲到的求匀变速运动位移的过程:假设在[-1, 1]时刻的运动是匀加速运动,那么可以利用位移推测出0时刻的速度和区间内的加速度,即可以计算出0时刻到任意t时刻的位移:图3:视频中物体运动的示意图,,,分别表示物体,,, 中的位置通过以上方法,对称地我们可以计算出。此时,我们得到了含有加速度信息和。为了生成高质量的中间帧,我们需要得到反向光流和。为此研究团队提出一个可微分的“光流逆转层”来预测和。通过以下转换公式可以高效的将和和转化为和,但是可能会造成逆转的光流在运动边界处出现强烈的振铃效应(见图4)。为了消除这些强烈震荡的部分,研究团队提出了一种基于深度神经网络的、能够对逆转后光流进行自适应采样的滤波器(Adaptive Flow Filter)。实验证明,自适应滤波器(ada.)能够明显削弱光流逆转造成的振铃效应,从而改善最终合成帧的质量。图4 自适应滤波器能够改善逆转的光流和合成的中间帧的质量 实验结果 研究团队在GOPRO、Adobe240、UCF101和DAVIS四个知名视频数据集上对提出的方法进行测评,并与业界前沿的插帧方法Phase、DVF、SepConv和SuperSloMo进行比较。在每个数据集上,二次视频插针方法都大幅超过现有的方法(见表1、表2)。表1 本文提出的方法和业界前沿方法在GOPRO和Adobe240数据集上的比较表2 本文提出的方法和业界前沿方法在UCF101和DAVIS数据集上的比较除此之外,研究团队还对各种方法生成中间帧进行了关键点跟踪并进行可视化,从图5中两个案例的视频运动轨迹可以看出,用真实慢动作相机采集的中间帧(GT)的运动轨迹是曲线的。线性模型(SepConv、SuperSloMo、Oursw/o qua)生成的中间帧的运动轨迹都是直线,相反,本文的模型(Ours)能够更精准的预测出非线性轨迹,获得更好的插帧结果。图5 对不同方法的插帧结果进行可视化。第一行和第三行是每种方法的插帧结果和真实图像中间帧(GT)的平均。第二行和第四行对每种方法的插帧结果进行关键点跟踪。 综上,本文提出的能够感知视频中运动加速度的插帧方法相比已有的线性插帧算法,能够过更好地预测中间帧。 [1]S.Meyer, O.Wang, H.Zimmer, M.Grosse, and A.Sorkine-Hornung. Phase-based frame interpolation for video.In CVPR, 2015[2]Z.Liu,R.Yeh, X.Tang, Y.Liu, and A.Agarwala. Video frame synthesis using deepvoxel flow. In ICCV,2017.[3]S.Niklaus, L.Mai, and F.Liu. Video frame interpolationvia adaptive separable convolution. In ICCV,2017[4] H.Jiang, D.Sun, V.Jampani, M.Yang, E. G. Learned-Miller, and J.Kautz. Superslomo: High quality estimation of multiple intermediate frames for video interpolation. In CVPR, 2018. 点击“阅读原文”加入 NeurIPS 交流群