SIGGRAPH Asia 2018：微软亚洲研究院入选论文解读

2018 年 12 月 6 日 微软研究院AI头条

编者按：2018年的SIGGRAPH Asia大会于12月4日-7日在日本东京召开，在本届大会上，微软亚洲研究院共有5篇论文被接收，论文内容涵盖利用深度学习来实现从人像照片到肖像漫画的风格迁移，根据用户手画草图生成三维模型的新方法，借助无监督学习进行图像平滑处理等一系列最新研究。

下面就让我们一起来看看这几篇论文都研究了哪些内容吧。

从照片到漫画

数据驱动的深度学习AI

根据人物照片创作漫画对于艺术家来说很容易，但是绘画中细节的复杂性和形状的不确定性，对于AI而言却是十分困难的。来自微软亚洲研究院的实习生和研究员们设计了一种基于深度学习的方法——CariGANs，它从专业艺术家绘制的数千幅漫画中学习，可以根据人物肖像照片自动合成漫画。现有的风格转移方法主要着重在外观风格上，而这种新技术在此基础上还可以模拟漫画中常见的几何夸张手法。

这项技术将生成式对抗网络（GAN）应用于人物图片与人像漫画之间的转化，并保留人物肖像的身份特征。CariGANs计算框架包含两个子算法——CariGeoGAN和CariStyGAN。CariGeoGAN用于构造从面部照片到漫画的几何变形，CariStyGAN则在不引入几何变形的同时，将漫画的风格转移到面部照片。两个网络针对每项任务分别进行训练，因此学习过程更加鲁棒。用户能够通过拖动或给出示例漫画的方式，来控制几何和外观风格的夸张程度。

该研究还通过感知研究来评估他们的框架是否能够生成易于识别且不会在形状和外观风格上过度扭曲的肖像漫画。例如与现有的漫画风格迁移方法相比，CariGANs能在多大程度上保留肖像的身份特征。研究人员通过实验发现，现有的方法所得到的漫画常常过于夸张或不够清晰，因而人物难以被识别。而CariGANs能够将肖像照片转化为更清晰、更准确的漫画，就如同专业艺术家创作的一般。

目前，这项工作主要是针对头像或半身像的人物漫画。该技术已经可以帮助用户创作用于社交媒体的人像漫画和构建有趣的卡通形象。在未来，研究人员将针对全身像和更复杂的场景进行漫画生成，并进一步增强这一系统的人机交互功能。希望这项技术可以应用于市场营销、广告和新闻等更多领域。

论文链接：

http://ai.stanford.edu/~kaidicao/carigan.pdf

基于草图的自由三维形状建模

通过绘制草图来建模三维形状是计算机图形学的经典问题。关于该问题，现有工作可以分为两类，一类是基于几何推理的方法，另一类是基于机器学习的方法。在过去的二十年中，研究人员开发出有效的几何规则，基于此类规则，用户绘制的2D草图可以准确地转换为3D模型。这些基于深刻几何原理的方法虽然强大，但通常需要大量用户标注才能实现内容的复杂性，并且由于涉及非线性优化，计算速度通常较慢。随着机器学习方法的成熟，特别是卷积神经网络（CNN）等深度学习方法，近年来出现了基于CNN的、采用数据驱动的方法来解决草图建模问题。这些方法通常收集包含特定类型的物体及其相应草图的大型数据集，并训练一个卷积网络实现从草图到3D形状的映射。但是针对特定类别物体训练出来的网络无法推广到其它类别。

针对以上两种方法的不足之处，香港大学和微软亚洲研究院的研究员开发了一种智能的方法，它需要极少的用户标注，可以自动执行所需推理，而且不必为每个特定的物体类别训练单独的机器学习模型。

新的方法是以上两种方法的结合。基于几何原理，新方法将从草图到三维物体的问题分解为：（1）从草图获得密集的曲率方向场，（2）而后从草图和曲率场重建出无特定类别的自由形状。另一方面，新方法通过数据驱动的卷积网络进行几何推理，包括如何解析不含标注的草图和重建曲率方向场，以及如何进一步重建自由曲面。实验证明，使用大规模的合成数据训练的卷积网络可以很好地处理人们真实绘制的草图，并非常快速地生成符合用户期望的三维形状。

基于草图建模的主要技术难点在于二义性，即2D草图和3D形状之间存在明显的信息差异。几何推理方法在很大程度上依赖于详细的用户标注来解决二义性，而先前的数据驱动方法通过限制到特定物体类别来减少二义性。新提出的方法则是通过数据驱动来尽可能减少用户标注，将草图转换为密集曲率方向场以提供正则化，并且使用无监督学习显式建模关于三维重建的置信度，以对抗二义性。

借助该新方法，艺术家可以快速轻松地绘制三维自由形状，然后使用其他建模软件进一步增加物体的细节。普通用户也可以使用它进行3D创作。

论文链接：

http://haopan.github.io/papers/SketchCNN.pdf

利用无监督学习框架的图像平滑

图像平滑是计算机视觉和图形图像处理里众多算法中的一个重要组件。来自山东大学、北京大学和微软亚洲研究院的研究员提出了一个统一的无监督学习框架，该框架利用深度卷积神经网络从数据中学习，可以提供灵活且高质量的图像平滑效果。

该框架在目标函数里引入两个特别的能量项：(1)边缘保持正则项，用以保护重要但脆弱的图像结构；(2)空间自适应Lp光滑项，可以将不同形式的正则化自适应地施加到图像的不同区域，以获得更好的平滑质量。基于该统一的框架，研究人员实现了一套多样化的图像平滑解决方案，并应用于图像抽象、铅笔素描风格化、细节增强、纹理去除和内容相关的图像处理等方面，取得了与以往方法相当乃至更好的结果。另外由于GPU的使用，该方法使得图像平滑计算极为高效，在1280x720 分辨率的图像上可达到200帧每秒的速度。

论文链接：

https://arxiv.org/pdf/1811.02804.pdf

自适应八叉树卷积神经网络

微软亚洲研究院的研究员和来自清华大学的实习生提出了一种基于自适应八叉树的卷积神经网络——Adaptive O-CNN，以用于高效的三维形状的编解码任务。传统的基于体素和基于八叉树的三维表达将三维信息存储于相同分辨率的体素中，而基于自适应八叉树的表达根据八叉树结点内三维形状是否可以被平面片很好地逼近这一原则，将三维形状自适应地分解到不同层的八叉树结点中，从而具有更稀疏更紧致的三维表达。基于这种表达，研究人员构造了高效的自适应的O-CNN编码器和解码器，以此来编解码三维形状。具体而言， Adaptive O-CNN 编码器以自适应八叉树结点内的拟合平面的参数作为输入，仅在八叉树节点上进行三维卷积；Adaptive O-CNN解码器预测空间如何剖分以生成自适应八叉树，并估算出自适应八叉树各层非空叶结点中的拟合平面以构造三维形体。作为三维形状分析和生成的通用框架， Adaptive O-CNN 不仅大幅降低了GPU内存开销和计算成本，而且其三维生成的质量还优于很多现有的基于深度学习的方法。研究人员在一系列应用中展示了Adaptive O-CNN在三维形状分析与生成的能力和优越性，其中包括形状分类、三维自动编码器、基于单张图像的三维形状生成，以及对含噪声和缺失信息的三维点云的形状补全。

论文链接：

https://wang-ps.github.io/AO-CNN_files/AOCNN.pdf

偏振SVBRDF和法向信息的同时采集

物体的表观模型获取通常要在光线-视点空间中进行密集采样，而且这样的采样需要利用非常特定和昂贵的硬件来实现。为了降低采集难度和开销，韩国KAUST大学和微软亚洲研究院的学者利用了光的偏振特性，实现了一个无需多个光和视点角度的采集系统。他们在单个的投影仪和相机前放置线性偏振镜来拍摄一组偏振图像，以获得真实物体的表观和法向信息。

在这个系统的设计中研究人员遇到两个技术挑战：（1）没有同时考虑镜面反射和漫反射的完整的偏振BRDF模型；（2）现有的基于偏振的逆向渲染方法是基于球面光照的假设, 它们不适用于局部光照情况。针对这些问题，研究人员首次提出了一个完整的pBRDF模型，用来描述镜面反射和漫反射的偏振光强分布。基于pBRDF模型，研究人员也提出一种基于 pBRDF和法向量联合优化的新的逆向渲染方法，该方法能够捕获随空间变化的材质表观: 材质的镜面特性（包括折射率、镜面粗糙度和镜面系数）、每个像素的漫反射率和法向值等。研究人员通过计算偏振表观和几何特性之间的物理关系，解决了之前严重病态的逆向渲染问题。