学界 | 新的快速图像转手绘方法，人类水准、户外场景

2019 年 1 月 24 日 AI科技评论

AI 科技评论按：下面的 AI 生成的手绘图看起来怎么样？有耳目一新的感觉吗？像你不好好听课的时候在草稿纸上随便画的风格吗？

作者们尤其希望读者关注下面那张卧室的生成手绘图像。其中的物体边界线并不像初学绘画的人那样画成了完全的直线。

从照片生成简笔画或者素描样式的手绘图像是许多普通人都感兴趣的计算机视觉任务。但是这项任务并没有那么容易做好。一直以来计算机视觉研究人员们花了很多精力关注的任务都是图像分类和语义分割，即便是像素级、实例区分的语义分割也只能抓取到不同物体的外部轮廓，对同样刻画了物体形状、但是位于外轮廓线内部的线条就无能为力了；而另一方面，各类边缘检测算法虽然能捕捉到边缘，但是无法区分出人类重点关注的、带有较多语意信息的轮廓内部的主要线条并予以加强。高度简化的简笔画又会与实物相距甚远。

不同写实程度的简笔画风格

不同边缘检测方法之间的对比

近期的一篇新论文《Photo-Sketching: Inferring Contour Drawings from Images》（照片速写：从图像生成轮廓绘画，arxiv.org/abs/1901.00542）就在这个问题上迈出了自己的一步。一作是 CMU 的中国留学生 Mengtian Li，他本科在南京大学匡亚明学院；别的作者来自 Adobe 研究院、Uber 以及 Argo AI。

作者们的方法并不意外，收集一个新的手绘数据集（真人进行的照片手绘），然后训练神经网络。不过与类似研究有所不同的是，作者们收集的是一个一对多的数据集，每张照片可以对应多个真人手绘 ground truth 图像。所以作者们认为这不应当是在传统的「优化调节边缘检测器」路线上继续发展，同时直接使用各类现成的 cGAN 也无法带来理想的表现。作者们提出了一种新的、可以处理多种不同的稀疏输入的 cGAN 来进行处理。作者们与其它方法进行了定性以及定量的对比。

为了便于视觉理解及简笔画生成的后续研究，作者们也一并发布了这个数据集，它由一组组图像和对应的轮廓简笔画组成。数据中含有 1000 张户外场景的照片，每张照片都有 5 张对应的人类绘制的轮廓简笔画（一共 5000 张）。简笔画中的笔画已经与照片中的边界做过粗略的对齐，便于把人类的笔画和照片中的边界对应起来。

数据集是通过亚马逊众包平台 Mechanical Turk 收集的。收集过程中先给参与者展示垫在半透明背景下的照片，然后要求他们在上面用简笔画描绘出图中的边界。为了获得高质量的简笔画（标注），研究人员们专门设计了一个标注界面，其中含有一个详细的指导页面，展示了许多正面和负面例子。标注还会经过人工的质量检查；内部边线有缺失的、缺少重要的画面内容的、手绘的边界线与原图有较大出入的、无法识别简笔画内容的、简笔画中的人物非常糟糕的、在空的部分画了线，这六类质量不高的图像都有可能被拒绝。所以实际上，在收集到这 5000 张可用的手绘简笔画的同时，研究人员们也获得了 1947 张质量不高而被拒绝的简笔画；这些画未来可以用作自动质量控制的样本。

数据集中部分手绘图像（带有笔画方向及顺序）

论文摘要：边界、边线、轮廓，这三者在计算机图形学和计算机视觉两个领域都是重要的研究课题。一方面，它们是表达了三维形状的二维平面元素；另一方面，它们是互相遮盖的物体的指示器，我们正是借助它们才能分辨不同的物体或者语义概念。在这篇论文中，作者们的目标是生成物体轮廓绘画，也就是类似边线的笔画，通过它们勾画出视觉场景的主要线条。早期的研究中通常把这类任务称作“边缘检测”。然而，边缘检测任务的理想输出中包含的视觉元素与轮廓绘画之间其实有着不小区别，而且也缺失了轮廓绘画中的艺术风格。作者们解决这个问题的方式是收集了一个新的轮廓简笔画数据集，并提出了一种基于学习的方法来解析不同的标注之间的多样性；而且与边缘检测器不同的是，他们的方法可以在真实照片和手绘素材不完全对齐的情况下工作。相比以往的方法，作者们的方法定型、定量地都取得了更好的表现。令人惊讶的是，当作者们在 BSDS500 数据集上精细调节模型时，他们在突出边界检测任务中取得了目前最好的成绩，这表明他们的轮廓绘画可能可以成为边缘标注的一种可拓展的替代方案，但同时对于标注人员来说更容易做、也更有趣。

项目主页：