成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
超清还不够,插帧算法让视频顺滑如丝丨NeurIPS 2019
2019 年 12 月 19 日
AI科技评论
作者 | 商汤
编辑 | Tokai
自相机被发明以来,人们对更高画质视频的追求就没有停止过。
分辨率从480p,720p,再到1080p,现在有了2K、4K;帧率也从25FPS到60FPS,再到240FPS,960FPS甚至更高……
如果仅靠相机的硬件迭代来提升帧率,存在局限性,因为相机传感器在单位时间内捕捉到的光有局限。而且相机硬件迭代的周期长,成本高。
最近,商汤科技孙文秀团队,
提出了一种可以感知视频中运动加速度的视频插帧算法(Quadratic Video Interpolation)
,打破了之前插帧方法的线性模型,将二次方光流预测和深度卷积网络进行融合,让你的视频顺滑如丝。
这种方法有多厉害?来看一个对比:
如果把视频放慢就能明显感觉到,未经过插帧的
慢放视频(左)会明显卡顿,而经过
Quadratic(二次方)视频插帧方法处理的
视频(右)播放流畅。
这个方法的论文被NeurIPS 2019接受为Spotlight论文,该方法还在ICCV AIM 2019 VideoTemporal Super-Resolution Challenge比赛中获得了冠军。
二次方插帧 VS 传统线性插帧
之前的视频插帧方法(包括Phase[1]、DVF[2]、SepConv[3]和SuperSloMo[4]等)是假设相邻帧之间的运动是匀速的,即沿直线以恒定速度移动。然而,真实场景中的运动通常是复杂的、非线性的,传统线性模型会导致插帧的结果不准确。
以抛橄榄球的运动视频为例(如下图1),真实运动中的轨迹是一条抛物线,如果在第0帧和第1帧之间进行插帧,线性模型方法模拟出来轨迹是线性轨迹(右二),与真实运动轨迹(右三)相差较大。
图1 传统线性模型与二次方视频插帧结果对比
但通过二次方视频插帧模型模拟出来的运动轨迹是抛物线形(图1右一),更逼近真实轨迹。也就是说,
它能够更准确地估计视频相邻帧之间的运动并合成中间帧,从而获得更精准的插帧结果。
二次方插帧是怎样“炼”成的?
研究团队构建了一个可以感知视频运动加速度的网络模型。与传统线性插帧模型利用两帧输入不同,它利用了相邻四帧图像来预测输入帧到中间帧的光流,简易的流程图如下:
图2 二次方插帧模型的流程
、
、
和
是输入视频连续的四帧。给定任意时刻t(0<t<1),该模型将最终生成t时刻的中间帧。而要得到
,就需要更深入了解其中的两个关键技术:
二次方光流预测和光流逆转
。
其中,二次方光流预测,就是中学物里面常讲到的求匀变速运动位移的过程:假设在[-1, 1]时刻的运动是匀加速运动,那么可以利用位移推测出0时刻的速度和区间内的加速度,即可以计算出0时刻到任意t时刻的位移:
图3:视频中物体运动的示意图
,
,
,
分别表示物体
,
,
,
中的位置
通过以上方法,对称地我们可以计算出
。此时,我们得到了含有加速度信息
和
。
为了生成高质量的中间帧,我们需要得到反向光流
和
。
为此研究团队提出一个可微分的“光流逆转层”来预测
和
。
通过以下转换公式可以高效的将
和
和转化为
和
,但是可能会造成逆转的光流在运动边界处出现强烈的振铃效应(见图4)。
为了消除这些强烈震荡的部分,研究团队提出了一种基于深度神经网络的、能够对逆转后光流进行自适应采样的滤波器(Adaptive Flow Filter)。
实验证明,自适应滤波器(ada.)能够明显削弱光流逆转造成的振铃效应,从而改善最终合成帧的质量。
图4 自适应滤波器能够改善
逆转的光流和合成的中间帧的质量
实验结果
研究团队在GOPRO、Adobe240、UCF101和DAVIS四个知名视频数据集上对提出的方法进行测评,并与业界前沿的插帧方法Phase、DVF、SepConv和SuperSloMo进行比较。在每个数据集上,二次视频插针方法都大幅超过现有的方法(见表1、表2)。
表1 本文提出的方法和业界前沿方法
在GOPRO和Adobe240数据集上的比较
表2 本文提出的方法和业界前沿方法
在UCF101和DAVIS数据集上的比较
除此之外,研究团队还对各种方法生成中间帧进行了关键点跟踪并进行可视化,从图5中两个案例的视频运动轨迹可以看出,用真实慢动作相机采集的中间帧(GT)的运动轨迹是曲线的。线性模型(SepConv、SuperSloMo、Oursw/o qua)生成的中间帧的运动轨迹都是直线,相反,本文的模型(Ours)能够更精准的预测出非线性轨迹,获得更好的插帧结果。
图5 对不同方法的插帧结果进行可视化。第一行和第三行是每种方法的插帧结果和真实图像中间帧(GT)的平均。第二行和第四行对每种方法的插帧结果进行关键点跟踪。
综上,本文提出的能够感知视频中运动加速度的插帧方法相比已有的线性插帧算法,能够过更好地预测中间帧。
[1]S.Meyer, O.Wang, H.Zimmer, M.Grosse, and A.Sorkine-Hornung. Phase-based frame interpolation for
video.In CVPR, 2015
[2]Z.Liu,R.Yeh, X.Tang, Y.Liu, and A.Agarwala. Video frame synthesis using deepvoxel flow. In ICCV,
2017.
[3]S.Niklaus, L.Mai, and F.Liu. Video frame interpolationvia adaptive separable convolution. In ICCV,
2017
[4] H.Jiang, D.Sun, V.Jampani, M.Yang, E. G. Learned-Miller, and J.Kautz. Superslomo: High quality
estimation of multiple intermediate frames for video interpolation. In CVPR, 2018.
点击“
阅读
原文
”加入
NeurIPS 交流群
登录查看更多
点赞并收藏
0
暂时没有读者
4
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
FPS
关注
0
【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架
专知会员服务
56+阅读 · 2020年5月26日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
规则就够用?还是必须上机器学习?这46页ppt教你如何把规则引擎和机器学习融会贯通
专知会员服务
56+阅读 · 2020年3月22日
【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化,Adversarial Texture Optimization
专知会员服务
16+阅读 · 2020年3月21日
【综述】基于图的对抗式攻击和防御,附22页论文下载
专知会员服务
68+阅读 · 2020年3月5日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读
专知会员服务
53+阅读 · 2019年12月22日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
比AI视频换脸还可怕!DeepMind新AI可生成逼真视频
智东西
10+阅读 · 2019年7月23日
动态 | 快手 ICIP 2019 移动视频修复大赛开启报名啦!
AI科技评论
5+阅读 · 2019年3月30日
实战 | 相机标定
计算机视觉life
15+阅读 · 2019年1月15日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
【泡泡图灵智库】Flowdometry:基于光流和深度学习的视觉里程计(IWCACV-1)
泡泡机器人SLAM
5+阅读 · 2018年9月7日
CVPR 2018|视频分析的非局部(non-local) 神经网络模块,CMU与Facebook AI研究室视频分类识别新贡献
极市平台
5+阅读 · 2018年5月21日
开源项目VNect使用普通手机摄像头进行动作捕捉,媲美深度摄像头
AR酱
9+阅读 · 2018年5月12日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
【泡泡一分钟】基于单目小运动视频的快速深度估计算法(3dv-20)
泡泡机器人SLAM
6+阅读 · 2017年12月22日
Challenges in Building Intelligent Open-domain Dialog Systems
Arxiv
8+阅读 · 2019年10月22日
Discovery and recognition of motion primitives in human activities
Arxiv
4+阅读 · 2019年2月4日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Improved Speech Enhancement with the Wave-U-Net
Arxiv
8+阅读 · 2018年11月27日
Monocular Object and Plane SLAM in Structured Environments
Arxiv
12+阅读 · 2018年9月10日
Topic Modelling of Empirical Text Corpora: Validity, Reliability, and Reproducibility in Comparison to Semantic Maps
Arxiv
4+阅读 · 2018年6月4日
Planar Object Tracking in the Wild: A Benchmark
Arxiv
5+阅读 · 2018年5月22日
Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning
Arxiv
4+阅读 · 2018年3月30日
Directional Statistics-based Deep Metric Learning for Image Classification and Retrieval
Arxiv
6+阅读 · 2018年3月28日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
FPS
线性模型
NeurIPS 2019
NeurIPS
商汤
算法
相关VIP内容
【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架
专知会员服务
56+阅读 · 2020年5月26日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
规则就够用?还是必须上机器学习?这46页ppt教你如何把规则引擎和机器学习融会贯通
专知会员服务
56+阅读 · 2020年3月22日
【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化,Adversarial Texture Optimization
专知会员服务
16+阅读 · 2020年3月21日
【综述】基于图的对抗式攻击和防御,附22页论文下载
专知会员服务
68+阅读 · 2020年3月5日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读
专知会员服务
53+阅读 · 2019年12月22日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
热门VIP内容
开通专知VIP会员 享更多权益服务
军用数据链:武器装备神经,联合作战基石,31页pdf
【ETHZ博士论文】超越像素深度:通过深度学习增强超分辨率技术,198页pdf
2018∼2023年国家自然科学基金人工智能学科人才项目申请及资助综述
【NeurIPS2024】《AmoebaLLM:构建任意形状的大型语言模型以实现高效和即时部署》
相关资讯
比AI视频换脸还可怕!DeepMind新AI可生成逼真视频
智东西
10+阅读 · 2019年7月23日
动态 | 快手 ICIP 2019 移动视频修复大赛开启报名啦!
AI科技评论
5+阅读 · 2019年3月30日
实战 | 相机标定
计算机视觉life
15+阅读 · 2019年1月15日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
【泡泡图灵智库】Flowdometry:基于光流和深度学习的视觉里程计(IWCACV-1)
泡泡机器人SLAM
5+阅读 · 2018年9月7日
CVPR 2018|视频分析的非局部(non-local) 神经网络模块,CMU与Facebook AI研究室视频分类识别新贡献
极市平台
5+阅读 · 2018年5月21日
开源项目VNect使用普通手机摄像头进行动作捕捉,媲美深度摄像头
AR酱
9+阅读 · 2018年5月12日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
【泡泡一分钟】基于单目小运动视频的快速深度估计算法(3dv-20)
泡泡机器人SLAM
6+阅读 · 2017年12月22日
相关论文
Challenges in Building Intelligent Open-domain Dialog Systems
Arxiv
8+阅读 · 2019年10月22日
Discovery and recognition of motion primitives in human activities
Arxiv
4+阅读 · 2019年2月4日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Improved Speech Enhancement with the Wave-U-Net
Arxiv
8+阅读 · 2018年11月27日
Monocular Object and Plane SLAM in Structured Environments
Arxiv
12+阅读 · 2018年9月10日
Topic Modelling of Empirical Text Corpora: Validity, Reliability, and Reproducibility in Comparison to Semantic Maps
Arxiv
4+阅读 · 2018年6月4日
Planar Object Tracking in the Wild: A Benchmark
Arxiv
5+阅读 · 2018年5月22日
Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning
Arxiv
4+阅读 · 2018年3月30日
Directional Statistics-based Deep Metric Learning for Image Classification and Retrieval
Arxiv
6+阅读 · 2018年3月28日
大家都在搜
大模型
汽车智能化
大型语言模型
时间序列
无人机蜂群
智能推荐
RE-NET
PRML
MoE
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top