“弄假成真”:基于对抗学习的数据增广方法

2018 年 10 月 8 日 科技导报
“弄假成真”:基于对抗学习的数据增广方法


近年来,深度学习在计算机视觉许多领域取得突破性进展。2017 7 23日,计算机视觉领域顶级会议——计算机视觉与模式识别国际会议(IEEE Conference on Computer Vision and Pattern RecognitionCVPR)公布了 2017年会议最佳论文,其中一篇是苹果公司 Shrivastava 团队的论文《Learning from simulated and unsupervised images through adversarial training》,这篇文章引起了领域内学者的广泛关注。该文尝试解决训练大型深度网络需要大量标签数据的问题。研究表明,通过对抗训练的方式提高仿真图片的真实性,从而深度网络可以从无标签仿真图片中学习知识,提高真实场景下的识别能力。

   


仿真图像无监督学习

 


深度学习在计算机视觉领域取得巨大成功,它利用大量标签数据对深度网络进行监督训练,而标注大规模数据集非常昂贵和耗时。研究者希望借助现有计算机仿真技术帮助解决此问题,现有的计算机仿真技术利用计算机图形学原理,可以模拟物体的整体结构特征,而对物体局部细节的模拟不够逼真。直接利用仿真图片训练深度网络,得到视觉模型会过拟和不逼真的仿真图像细节,降低了在真实场景下的识别能力。为了能更好地从这些仿真图片中学到知识,研究者利用真实图片对抗训练提高仿真图片的逼真性。

   

研究者在论文中设计了一个提高仿真图片真实性的结构——SimGAN,其核心思想是采用对抗训练,利用深度网络提高仿真图片的真实性(图 1)。SimGAN用仿真器(simulator)生成仿真图片,仿真图片作为输入图片输入精炼网络(refiner),精炼网络是一种特殊设计的深度网络,其通过对抗训练可以改善输入图片的局部细节,输出更为逼真的仿真图片(图2)。

   

图 1  SimGAN:生成高真实度的仿真图片


图 2  SimGAN流程


精炼网络的训练有 2个损失项来约束:(1)对抗损失项,通过引入额外的判别网络(discriminator)对比真实图片和仿真图片,对生成图片的真实性进行评判,约束精炼网络的输出图片具有更真实的细节;(2)重构损失项,通过对比精炼网络的输出图片和输入图片,计算精炼网络的重构误差,约束精炼网络的输出图片,保持原有图片的结构信息。

   

 MPIIGaze数据集的眼球图片为例,训练眼球图片的精炼网络过程中,对抗损失项使精炼网络的输出图片更真实化,例如,在眼角的位置呈现阴影,眼球的纹理更细致等,而重构损失项就是确保精炼网络的输出图片还是眼球图片,例如,存在瞳孔、眉毛等结构。对于 NYU数据集中的手部姿态图片来说,由于传感器的限制,真实的图片数据存在空洞和边缘不平整的现象,而计算机仿真图片边缘均是十分光滑,和真实图片存在差异。论文中实验结果如图3、图4所示。

   

图 3  眼球图片精炼网络的输出和仿真图片的比较


图 4  手势深度图片精炼网络的输出和仿真图片的比较


从视觉感知上来看,精炼网络确实提高了输入图片的真实感,在眼球精炼示例中,仿真图片中的瞳孔与虹膜有比较清楚的轮廓边界,而真实场景下的眼球图片由于像素、光照等原因,不会呈现如此清楚的轮廓边界。在手势深度图精炼示例中,仿真图片中手掌的边缘总是平整而光滑的,但实际通过传感器采集的图片,由于传感器数据存在噪声的原因,在手掌的边缘会存在不光滑和空洞的现象。

   

研究者还设计了 2个结果评估实验,定量分析精炼网络输出后的图片对训练深度神经网络的作用。眼球图片精炼的结果分析实验有 4组不同数据,分别是:第 1组,仿真图片数据;第 2组,仿真图片数据,数据量为第 1组的 4倍;第 3组,精炼网络输出的图片数据;第 4组,精炼网络输出的图片数据,数据量为第3组的4倍。

   

手势深度图片精炼实验采用NYU数据集,手势深度图片精炼的结果分析实验有 5 组不同的数据,分别是:第 1组,仿真图片数据;第 2组,仿真图片数据,数据量是第 1组数据的 3倍;第 3组,精炼网络输出的图片数据;第 4组,精炼网络输出的图片数据,数据量为第 3组的3倍;第5组,真实手势图片。

   

实验结果的横轴是误差的阈值,纵轴是深度网络的准确率,从实验结果可以看出,用精炼网络的输出图片训练深度网络,其测试结果要优于用原始仿真图片训练深度网络的测试结果;此外,由于仿真图片的获取是十分容易的,研究者还测试了大量数据对训练深度网络的增益,在手势深度图片实验中,采用 3倍于真实图片的精炼后仿真图片训练深度网络,其效果优于直接用真实图片训练深度网络(图5)。

   

图 5  眼球及手势深度图的实验结果



结果分析与评价

 


实验结果表明,利用现有的计算机图形学技术,可以合成大规模多样化的仿真图像,但是仿真图像的逼真性不够,直接用来训练深度网络,得到的结果会过拟合仿真图像的细节,在真实场景下应用效果并不理想。通过对抗训练的方式,提高仿真图片的逼真性,使得仿真图片逼近真实图片的水平,用精炼后的图片来训练深度网络,可以得到比较好的效果。甚至由于仿真图片的易获取性,采用大量精炼后的仿真图片训练深度网络,效果优于采用真实图片训练的深度网络,例如,论文中手势深度图片的定量分析实验。

   

论文提出的方法对利用仿真图片训练深度网络提供了一定启发,利用计算机可以高效地产生丰富多样的仿真图片,在产生图片的同时,仿真图片自带精确的标签,将仿真图片和对抗训练相结合是辅助深度网络训练的重要手段,也将是今后研究的热点。

   

论文提出的方法也存在一定局限性,对抗训练的提出受博弈论中零和博弈的启发,约束生成网络和判别网络不断博弈,使生成网络的输出逼进真实图片的分布,由于同时交替训练 2个深度网络,对抗训练的训练过程不太稳定,而且容易出现模型崩溃的问题(模式崩溃是指生成的图片塌缩至某几个样本上)。此外,利用计算机生成仿真图片来辅助训练深度网络,需要在仿真系统里对物体建模,使其在某些场景下不太适用,例如,城市范围内的建筑物识别,如果采用仿真图片来辅助训练,需要对城市内各个建筑建立仿真模型,其工作量是巨大的,此方法便不太适用。

   


展 望

 


Learning from simulated and unsupervised images through adversarial training》一文利用对抗训练的方法从无标记的仿真图片中学习知识,提出的精炼网络结合判别器提高了仿真图片的逼真性,同时保留了物体的结构信息。将仿真图片和对抗训练相结合辅助深度网络训练是今后的研究热点,下一步研究重点可能在以下3个方面。

   

1)探寻更有效的生成模型,使生成的图片更加多样化,训练的过程更加稳定,生成的图片真实度更高。

   

2)尝试生成更为复杂的场景,同一场景中包含多个物体。

   

3)尝试仿真系统和对抗训练更有效的结合方式,例如,用仿真物体的视频代替图片来辅助深度网络的训练。

   

参考文献(略) 



作者简介:刘勇,浙江大学智能系统与控制研究所,教授,研究方向为机器学习、机器人视觉;曾仙芳(共同第1作者),浙江大学智能系统与控制研究所,博士研究生,研究方向为计算机视觉


本文发表于《科技导报》2018 年第17 期,敬请关注


(责任编辑 刘志远)



 

《科技导报》

中国科协学术会刊

联系电话:010-62194182

欢迎投稿:lina@cast.org.cn


长按二维码 即刻关注

登录查看更多
4

相关内容

论文摘要:传统监督学习通常假设训练数据类别标记恒定、特征信息充分、样本充 足。但很多现实的机器学习任务不满足这些假设条件,导致学习效果不尽人 意。为此,本文考虑通过引入增广信息 (Augmented Information) 进行学习。增 广信息包括传统静态学习中未考虑的额外信息以及动态学习过程中出现的新信 息。本文主要工作如下:

  1. 提出了一种训练集标记增广学习方法 GLOCAL。该方法利用标记关系对多 标记训练数据中部分缺失的标记进行恢复补全,但无需额外的先验知识来 指定标记关系矩阵,而是在优化过程中同时习得全局和局部标记关系。实 验验证了本文方法的有效性。
  2. 提出了分别用于静态、动态测试集标记增广学习的方法 DMNL 和 MuENL。 DMNL 通过最小化多示例包级损失和聚类正则化项,预测静态测试集中的多 个新标记;MuENL 通过特征和预测值训练新标记检测器并建立鲁棒模型, 以检测动态新增的标记并对其建模。实验验证了本文方法的有效性。
  3. 提出了一种多示例特征增广学习方法 AMIV-lss。 针对数据特征信息不足 的学习问题,将额外获取的带噪信息形式化为增广多示例视图 (AMIV) 作为 样本的特征增广。AMIV-lss 通过在两个异构视图之间建立公共隐藏语义 子空间,减少噪声影响,提升学习性能。实验验证了本文方法的有效性。
  4. 提出了一种多视图样本增广学习方法 OPMV。 OPMV 通过对每个样本优化 视图一致性约束下的组合目标函数,即可随着新增多视图数据高效更新模 型,并能够利用视图之间结构提升学习性能,而无需存储整个数据集,避 免从头进行训练。理论和实验验证了本文方法的有效性和高效性。
  5. 提出了同时进行标记/特征/样本增广学习的方法 EM3NL。EM3NL 基于多视 图多示例多标记深度卷积神经网络,利用额外文本描述作为图片的补充 (特 ii 征增广),能够检测新标记 (标记增广),并可根据动态增加的样本即时更新 模型 (样本增广)。实验验证了本文方法的有效性。

关键词: 机器学习;增广学习;增广信息;多标记学习;新标记学习;多视图 学习;单趟学习

作者介绍:朱越,他是南京大学计算机科学与技术学院五年级博士生,也是LAMDA集团的成员。在此之前,他于2011年获得了计算机科学与技术的理学学士学位,并于2013年在周志华教授的指导下获得了理学硕士学位。2015年3月至2015年9月,他拜访了香港科技大学James T. Kwok的小组。

成为VIP会员查看完整内容
0
27
小贴士
相关资讯
相关论文
Zilong Zhong,Jonathan Li,David A. Clausi,Alexander Wong
3+阅读 · 2019年5月12日
Yanbin Liu,Juho Lee,Minseop Park,Saehoon Kim,Eunho Yang,Sung Ju Hwang,Yi Yang
7+阅读 · 2019年2月8日
Learning Embedding Adaptation for Few-Shot Learning
Han-Jia Ye,Hexiang Hu,De-Chuan Zhan,Fei Sha
11+阅读 · 2018年12月10日
Compositional GAN: Learning Conditional Image Composition
Samaneh Azadi,Deepak Pathak,Sayna Ebrahimi,Trevor Darrell
30+阅读 · 2018年7月19日
Maha Elbayad,Laurent Besacier,Jakob Verbeek
7+阅读 · 2018年5月14日
Terra Blevins,Omer Levy,Luke Zettlemoyer
3+阅读 · 2018年5月11日
Jianxin Lin,Yingce Xia,Tao Qin,Zhibo Chen,Tie-Yan Liu
7+阅读 · 2018年5月1日
Igor Melnyk,Tom Sercu,Pierre L. Dognin,Jarret Ross,Youssef Mroueh
6+阅读 · 2018年4月30日
Wenhao Jiang,Lin Ma,Xinpeng Chen,Hanwang Zhang,Wei Liu
6+阅读 · 2018年4月3日
Wonsik Kim,Bhavya Goyal,Kunal Chawla,Jungmin Lee,Keunjoo Kwon
16+阅读 · 2018年4月2日
Top
微信扫码咨询专知VIP会员