2D照片秒变3D，Adobe新方法让你只用一张图像轻松做特效

2019 年 9 月 25 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自：机器之心

作者：SIMON NIKLAUS等 参与：魔王

Ken Burns 特效是通过平移和缩放使静止图片动态化的一种特效，之前的方法需要多张输入图像，而且考验用户的图像处理技术。现在不用了，来自美国波特兰州立大学和 Adobe 的研究人员提出了一种新框架，它能基于单张图像合成 3D Ken Burns 特效，并支持全自动模式和用户控制摄像机的交互模式。

论文地址： https://arxiv.org/abs/1909.05483

Ken Burns 特效，是一种通过虚拟摄像机扫描和缩放使静止图片动态化的特效。添加视差是创建 3D Ken Burns 的重要因素，带来了很多不可思议的画面。手动创建此类特效很费时间，并且需要足够的图片编辑技巧。

但是，现有的自动方法需要多张不同视角的输入图像。最近，来自美国波特兰州立大学和 Adobe 的研究人员提出了一种新框架，它能基于单张图像合成 3D Ken Burns 特效，并支持全自动模式和用户控制摄像机的交互模式。

图 1： 单张图像生成的 3D Ken Burns 特效。 基于单张输入图像和用户自选标注（以裁剪窗口形式），该框架使静止输入图像动态化，并通过添加视差来合成 3D Ken Burns 特效。

示例如下：

该框架首先利用景深预测流程，估计适合视图合成任务的景深。为了解决现有景深估计方法的局限性，如几何失真、语义失真和不准确的景深边界，研究者开发了一种语义感知神经网络用于景深预测，辅以基于分割的景深调整流程，并使用精炼神经网络提升目标边界的景深预测准确率。

该框架根据景深估计，将输入图像映射至点云，并从对应的摄像机位置渲染点云，从而合成最终的视频帧。为了解决空洞问题（disocclusion）同时保证合成结果具备时间和几何连贯性，研究者利用上下文感知的颜色修复和景深修复技术，填充摄像机路径极端视图中的丢失信息，从而扩展点云的场景几何（scene geometry）。研究者对大量图像内容进行实验后发现，该方法可以实现逼真的合成结果。该研究表明，相比已有的 3D Ken Burns 特效生成方法，这一系统不费吹灰之力即可实现更好的合成结果，。

研究贡献

这篇论文主要介绍如何基于单张图像，自动合成 3D Ken Burns 特效。研究者纳入了简单的用户指定摄像机路径（可选），以期望开始视图和结束视图进行参数化，保证用户对合成特效的控制。

基于单张图像合成逼真的移动镜头效果是一个非常难的问题，它需要解决两个基础难题： 1）要想基于新摄像机位置合成新视图，就需要准确复原原始视图的场景几何； 2）从预测场景几何中合成具备时间连贯性的新视图序列需要处理空洞难题。该研究解决了这两大难题，并提供了一个基于单张图像合成 3D Ken Burns 特效的完整系统。

首先，该系统基于输入图像估计景深图。近年来现有的景深预测方法迅速发展，但单目景深估计仍然是难解问题。研究者观察到，已有的景深预测方法并不是特别适合视图合成任务。具体而言，研究者发现要想使用这些方法进行 3D Ken Burns 特效合成需要解决三个关键问题：几何失真、语义失真和不准确的景深边界。

基于此，研究者设计了一个景深估计流程以及专门解决这些问题的训练框架。他们开发了语义感知景深估计神经网络，并在其最新创建的大规模合成数据集上进行模型训练，该数据集包含不同照片级真实感场景的真值景深。

这样，景深预测流程和新型视图合成方法结合起来形成一个完成的系统，可实现基于单张图像的 3D Ken Burns 特效生成。该系统提供全自动的解决方案，自动确定虚拟摄像机的开始视图和结束视图，从而最小化遮蔽物的数量。

3D Ken Burns 特效合成

该框架包含两个主要组件：景深估计流程（见图 3）和新型视图合成流程（见图 7）。

语义感知景深估计

图 3： 该研究提出的景深估计流程图示。 给出一张高分辨率图像，研究者首先基于低分辨率输入图像估计粗糙景深。

要想合成 3D Ken Burns 特效，该方法首先需要估计输入图像的景深。研究者将景深估计分为 3 个步骤：

利用低分辨率图像估计粗糙景深，同时依靠 VGG-19 提取的语义信息提升泛化性。
根据 Mask R-CNN 的实例级分割结果调整景深图，确保显著目标内的景深值连贯。
精炼输入图像指引的景深边界，同时对低分辨率景深估计进行上采样。

图 4： 景深估计中间结果。 该示例展示了景深估计流程中每一步的贡献。

最初估计的景深遭受语义失真（红色汽车）和不准确的精神边界（如塔轮廓上的凸起）。景深调整可解决红色汽车的语义失真问题，景深精炼可解决目标边界的细微细节问题。

上下文感知的视图合成修复技术

为基于景深估计合成 3D Ken Burns 特效，该研究提出的方法首先将输入图像映射至点云中的点。然后沿着预先确定的摄像机路径从对应摄像机位置开始渲染点云，从而合成所得视频中的每一帧。但是，点云只是从输入图像看到的世界几何部分视图，因此得到的新视图渲染结果并不完整，存在遮蔽物引起的空洞。

图 7： 新型视图合成方法图示。 基于输入图像点云和景深图，从新的摄像机位置渲染后续新视图。

该研究设计了一个专门的视图合成流程来解决图 7 中的要求。给出输入图像的点云及其景深估计，研究者利用颜色修复和景深修复技术填充不完整新视图渲染结果的丢失区域。

图 5： 点云渲染图示。 用初始景深估计的点云展现深度精炼的重要性，因为目标可能会在目标边界处被分割开。

涉及景深的图像修复技术可实现几何连贯的图像修复。然后使用修复景深将修复颜色映射至现有点云中的新点，从而解决遮蔽物的问题。

要想按预先确定的摄像机路径合成 3D Ken Burns 特效，仅在起始和结尾等极端视图中执行颜色和景深修复即可。渲染扩展后的点云可保持时间连贯性，而且能够实时完成。

图 6： 视频合成结果示例，对比了两种流行的即拿即用图像修复方法和该研究提出的方法。 由于待修复区域本质上并非矩形，因此 DeepFill 无法修复出合理的结果。 EdgeConnect 的修复结果更加合理，但不具备时间连贯性且无法保持目标边界。 而该研究提出的修复方法既具备时间连贯性，又能保持清晰的目标边界。

实验

研究者对比了现有解决方案和新框架在合成 3D Ken Burns 特效方面的效果。他们考虑了两种商业系统：第一种是 Photo Motion 软件包，是 Adobe After Effects 的模板；第二种是移动 app Viewmee，它可使非专业用户轻松创建 3D Ken Burns 特效。

图 10： 易用性研究结果。 新系统可使用户不费吹灰之力得到优秀结果。

图 11 展示了两个示例，对比了新方法生成的 3D Ken Burns 特效和使用同样开始视图、结束视图裁剪窗口得到的 2D 版本。 2D 版本具备典型的缩放特效，但没有视差。而新方法包含逼真的移动视差和强大的景深预测，因此特效结果更好。

图 11： 2D Ken Burns 和 3D Ken Burns 特效对比图。 注意移动视差方面的差异。

表 1（上）根据每个基准定义的不同量化指标对比不同方法的景深预测质量。该研究提出的方法在所有景深质量指标上均可媲美当前最优的景深预测方法。

表 1（下）列举了新方法的两种变体，方便更好地分析景深估计网络和训练数据集的效果。具体而言，研究者使用 DIW 数据集的所有可用训练数据训练网络架构，与基于研究者创建的数据集训练的网络进行对比。

表 1： 景深预测质量。 新方法在所有景深质量指标上均可媲美当前最优的深度预测方法。

重磅！CVer学术交流群已成立

扫码添加CVer助手，可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡）

▲长按加群

▲长按关注我们

麻烦给我一个在看！

登录查看更多

相关内容

波特兰州立大学

关注 0

波特兰州立大学（Portland State University，简称PSU）成立于1946年，坐落在美国俄勒冈州的第一大城市波特兰，是俄勒冈州大学体系中规模最大、文化最丰富且唯一位于城市中心的大学，在继续教育及实践方面为全国的先驱。学校现有在校生约27,000人，其中包括来自近100个国家的2,000多名国际学生。

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

【北京大学】CVPR 2020 | PQ-NET：序列化的三维形状生成网络

专知会员服务

10+阅读 · 2020年3月20日