Pixel 2不仅能拍动图，还用机器学习加上了背景稳定技术

2018 年 3 月 15 日 论智 Google

来源：Google Research Blog

编译：Bing

今天，智能手机最吸引人的功能之一就是能捕捉正在运动的瞬间。现在，Pixel 2和Pixel 2XL手机推出了全新相机功能，用户无需在相机和录像功能中切换选择，每次拍摄的照片都会捕捉更多运动。当你开启运动照片模式时，你的手机就开始录制，并裁剪成长达3秒的视频。基于先进的稳定技术，该技术率先在安卓中的Motion Stills应用。让我们看看这些照片背后的技术吧！

硬件与软件结合，生成动态照片

按下快门后，相机会拍摄一张照片和视频，二者都是全分辨率JPEG模式，并带有3秒视频短片。在Pixel 2上，视频还包含来自陀螺仪和光学图像稳定（OIS）传感器的运动元数据，以帮助修建和稳定运动照片。通过将基于视觉跟踪和来自传感器的元数据相结合，谷歌的研究人员为Pixel 2上的运动照片创建了新的混合生成器。

相比于Motion Stills或者基于纯硬件传感器的技术，这种方法能更精确地对齐背景。得益于Fused Video Stabilization技术，它可以减少由于深度图层构成的复杂场景或当前景物体占据大部分画面时带来的伪影。它还改进了基于硬件传感器的传统方法，通过改进运动估计达到更精确的效果，尤其是近距离拍摄。

捕捉的动态照片（左）和将软硬件结合后对图像进行稳定处理（右）

他们在Motion Stills中引入的纯基于软件的技术使用了视频帧中的视觉数据，检测并跟踪连续帧中的特征，从而生成运动向量。然后使用运动模型（例如仿射变换或一个homography）将运动向量分类为前景和背景。然而，这种分类并不完美，并且可能被复杂的场景或主要前景误导。

用元数据进行前景和背景区分，橙色点表示前景，绿点表示背景

针对Pixel 2上的运动照片，研究人员用陀螺仪和光学图像稳定器上的运动员数据改进分类功能。这可以准确捕捉相对无穷远处的运动，这可以认为是远处的背景。然而，对于在较近范围内拍摄的照片，不同深度的图层将会把视差作为场景元素，而不考虑陀螺仪和OIS。具体来说，他们将过于偏离运动员数据的向量标记为前景。这能更精确地区分前景和背景，也能让相机使用更复杂的运动模型。

动态照片的背景估计过程

动态照片的稳定和播放

一旦准确地确定了视频背景的运动，我们就可以使用之前提到的线性编程技术来确定一个最佳的相机路径来对齐背景。此外，该技术会自动修剪视频，避免因手机抖动造成的意外动作。所有这些处理过程是在手机里完成的，每当点击谷歌相册中的“动态”按钮时，每帧都会产生少量的元数据，用于GPU着色器实时渲染稳定的视频。另外，照片从静态转为视频的过度非常自然，在静态时呈现的是HDR状态。

即使在复杂场景中，也能稳定住移动的背景

动态图片分享

利用谷歌照片，你可以将动态照片以视频或gif的格式和朋友分享。这也是Pixel 2上软硬件以及机器学习结合后创造出的新功能。

原文地址：research.googleblog.com/2018/03/behind-motion-photos-technology-in.html

登录查看更多

相关内容

元数据

关注 7

元数据（Metadata），又称元数据、中介数据、中继数据[来源请求]，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件纪录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。

最新《深度多模态数据分析》综述论文，26页pdf

专知会员服务

302+阅读 · 2020年6月16日

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

专知会员服务

65+阅读 · 2020年5月15日

基于视觉的三维重建关键技术研究综述

专知会员服务

165+阅读 · 2020年5月1日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日