01
基于多领域视觉数据学习
我们首先讨论多领域的视觉数据。对于现在来说,它应该是我们可以用各种不同传感器,比如RGB和深度摄像机、红外、超光谱等来获取的数据。另外一个就是可以从不同视角去拍摄获取。此外,我们可以用语言来描述某个场景或者物体,也可以用声音、视频去记录。同样我们也可以用真实物理世界、VR、AR等方式去重现展示,从而形成视觉数据描述。
那么我们怎么去利用这些多领域视觉数据来更有效率的去解决问题?第一个就是我们可以把不同领域的数据融合在一起,然后来做一些事情。如果这种融合是在这种学习识别和分类这种融合的话,那么它肯定会对识别和分类的性能会有帮助。此外这种融合可以让它在原始数据基础上得到一些比较好的视觉效果,或者是得到一些就是我们想要的一些视觉特效。例如Suwajanakorn等人在今年Siggraph上的文章实现输入音频和奥巴马图像,输出合成的视频,使得嘴型和音频匹配。另外一个融合可以通过迁移学习实现。今年李开复在一个talk就提出过,深度学习之后是增强学习,然后就是迁移学习。王坤峰等提出的平行视觉也可以从该角度来理解,就相当于说我们先模拟得到一个场景,在这个场景训练一个模型,然后最后再把这个实验的模型在应用到实际,中间再会有一些交互平行执行使得模型优化。
基于学习的方法需要大量的训练数据,而手动标注耗时费力,我们可以融合仿真的带标注信息三维数据和无标签信息的虚拟数据来解决问题。在迁移学习中,为了减小真实数据和仿真数据之间的偏差,生成对抗网络(GANs)提供了一种有效的解决方式。此外,GAN还可以按照真实数据分布来生成对应的逼真图像,从而改善训练模型的泛化能力。
02
改善GAN的学习能力
Gooodfellow等在2014年提出了生成对抗网络(GANs),它包含一个生成网络和一个判别网络。生成网络不断更新使得网络生成的图像更加逼真,而判别网络的目的是尽量正确的判断数据来源于真实数据还是生成网络生成的数据。
GAN的目的是利用生成网络按照真实数据的分布来生成逼真数据,对于GAN的学习,它是一个最大-最小优化问题。我们先从最大化均方分布(Maximum Mean Discrepancy, MMD)来开始讨论优化改进GAN的学习能力, Borgwardt在06年提出MMD,就是如果假设有两个分布,如果这两个分布相同,那么这两个分布的均值一定相同。但是如果这两个分布的数学期望相同,并不表示两个分布相同。倘若我们将所有分布限制在希尔伯特空间,且小于等于1,此时如果其数学期望相同,那么可以证明这两个分布是相同的。
后面15年Li等人提出Generative Moment Matching Networks (GMMN)来利用核方法优化求解问题。Salimans等在2016年提出改进的GAN,将问题限制在Lipschitz连续性上,从而解决梯度消失的问题。Arjovsky等人提出Wasserstein GAN,利用Wasserstein距离来度量。另外一个优化方向可以从流行学习角度出发,从而考虑两个分布之间的局部关系。
03
图像转换
Image Translation可以分为有监督和无监督两种方式。首先就是有监督,最开始的时候是MSE和Perceptual loss,后来有了GAN,更多的工作开始基于GAN来实现。Conditional GAN的视觉效果较好,但仍然有一点局限性,我们还可以基于内部和外部的约束去优化模型结构。有监督的Image Translation主要是图像复原,图像超分辨率,街景分割,边缘检测等。
前面提到的基于MSE 定义的loss来实现Image Translation具有一定局限性,它会过于平滑图像,同时还会损失边缘和纹理细节信息。利用深度网络,比如VGG来实现基于perceptual loss的图像转换也会损失边缘和纹理细节信息,还会引入一些人工仿真场景信息。Ledig等人在今年CVPR上发表了文章将Perceptual loss和GAN结合,从而使得转换更为逼真。如果按照前面的这些方法来实现,我们需要设计用什么网络来实现计算Perceptual loss。那么如何避免去显示定义网络来实现Perceptual loss?Conditional GAN就可以实现,它定义正对(输入和真实图像)和反对(输入和仿真图像),然后学习网络来实现正确判断正反对。这样就可以将perceptual 隐式嵌入到网络中,这种conditional GAN方法是当时实现效果最好的。
另一种就是无监督图像转换,比如马到斑马的转换,四季场景变化等。还有一个例子就是人脸标签转换,比如性别、是否戴眼镜等。一个典型工作是今年CVPR上的Learning Residual Images(Shen &Liu),他们提出利用一个残差网络来学一个脸部标签(戴眼镜),同时利用另外一个残差网络来去掉眼镜,训练过程中这两个网络一起学习,使得它可以从戴眼镜到不戴眼镜,同时也可以实现从不戴眼镜到戴眼镜,这就相当于一个环,可以实现遍历,最终实现一个可以完成Face attribute transfer的模型。后面还有相似的工作比如DualGAN (Yi et al., Arxiv 2017)和Cycle-Consistent supervision (Zhu et al., Arxiv2017)等。
还有Facebook的一个工作,这个比较明确,就是说这里面有一个encoder,最后这个output需要设置什么样就是什么样。同时如果想调整这个Y得到目标的话,需要满足这个E(x)和Y是独立。这样的网络有一个很大好处就是它学一个网络,可以任意改变人脸的一个attribute即可,比如性别、年龄、眼镜等。这种网络结构是一个比较简洁比较漂亮的模型。
04
深度领域适应
下面讲讲Deep Domain Adaptation。在GAN出来之前,该领域已经做了十来年了。传统Domain Adaptation目标主要是指在领域A学得的模型,用于领域B。为了实现这个目标,我们设定了任务。第一个任务就是有监督的这个类型,在这种情况下就是说A里头也有label,B领域里面也有。还有一种就是半监督,即A里面有label,而B领域里面没有或者只有少量label。最后一个就是无监督的领域适应,领域A和B都没有任何标签信息。无监督是最难也是最有意义的。后来随着deep learning的巨大成功,被逐步引入domain adaptation, Donahue等人在ICML2014提出一些有监督是深度特征可以减小不同domain之间的bias。后来(Yosinski et al., NIPS 2014)提出深度特征不能解决domain adaptation问题,从双向的角度出发,domain adaptation是需要的。最开始利用Maximum Mean Discrepancy (MMD) 来实现,主要用线性核,后来将CNN引入实现非线性映射。后来(Gretton et al., NIPS 2012)提出用多核方法实现domain adaptation,从对抗思想来理解,先固定核函数参数,更新特征提取模型的参数来最小化MMD,然后固定特征提取模型参数,更新核函数参数来最大化MMD。
通过2014年的讨论,大家开始从无监督方向考虑,并结合GAN来做研究。时间是无监督DA就是利用合成数据学得模型再利用到真实环境中去,Render for CNN (Su et al., ICCV 2015)就是这样一个工作,如下图所示,他们提出在虚拟仿真图像训练模型,用于实际中估计物体姿态。上述从特征方面来实现domain adaptation,还有一个方面是从图像像素级方面来考虑实现,比较典型的一个工作就是Apple的第一篇AI论文,发表于几年的CVPR上。他们提出SimGAN,这里的输入为仿真图像,利用对抗网络学习来得到一个Refiner网络,从而使得生成图像既有仿真图像的标签数据,又有真实图像的纹理外观信息。
☞ 【独家】颜水成和冯佳时团队一作详解CVPR录用论文:基于对抗擦除的物体区域挖掘
☞ 【历程】GAN发展历程综述:送你最易入手的几个架构 | 附资料包
☞ 【实战】GAN网络图像翻译机:图像复原、模糊变清晰、素描变彩图
☞ 【干货】可能是近期最好玩的深度学习模型了:CycleGAN的原理与实验详解
☞ 【学界】牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术
☞ 【深度】Yann LeCun最新演讲再谈预测学习:记忆网络和对抗训练是很有前景的方向
☞ 【分享】三角兽首席科学家分享实录:基于对抗学习的生成式对话模型
☞ 【学界】清华朱军团队探索DNN内部架构,采用对抗性例子监督网络生成及错误
☞ 【几何图景】GAN的几何图景:样本空间的Morse流,与鉴别网络D为何不可能真正鉴别真假
☞ 【应用】生成式对抗网络GAN有哪些最新的发展,可以实际应用到哪些场景中?
☞ 【从头开始GAN】Goodfellow开山之作到DCGAN等变体
☞ 【智能自动化学科前沿讲习班第1期】上海交大倪冰冰副教授:面向图像序列的生成技术及应用初探
☞ 【智能自动化学科前沿讲习班第1期】University of Central Florida 的Guojun Qi:LS-GAN
☞ 【智能自动化学科前沿讲习班第1期】微软秦涛主管研究员:从单智能体学习到多智能体学习
☞ 【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉
☞ 【原理】十个生成模型(GANs)的最佳案例和原理 | 代码+论文
☞ 【教程】经得住考验的「假图片」:用TensorFlow为神经网络生成对抗样本
☞ 【模型】基于深度学习的三大生成模型:VAE、GAN、GAN的变种模型
☞ 【大会】还记得Wasserstein GAN吗?不仅有Facebook参与,也果然被 ICML 接收
☞ 【学界】邢波团队提出contrast-GAN:实现生成式语义处理
☞ 【专栏】阿里SIGIR 2017论文:GAN在信息检索领域的应用
☞ 【学界】康奈尔大学说对抗样本出门会失效,被OpenAI怼回来了!
☞ 警惕人工智能系统中的木马、病毒 ——深度学习对抗样本简介
☞ 【生成图像】Facebook发布的LR-GAN如何生成图像?这里有一篇Pytorch教程
☞ 【智能自动化学科前沿讲习班第1期】国立台湾大学(位于中国台北)李宏毅教授:Anime Face Generation
☞ 【变狗为猫】伯克利图像迁移cycleGAN,猫狗互换效果感人
☞ 【论文】对抗样本到底会不会对无人驾驶目标检测产生干扰?又有人发文质疑了
☞【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望
☞【专栏】基于对抗学习的生成式对话模型的坚实第一步 :始于直观思维的曲折探索
☞ 【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起
☞ 【最新】OpenAI:3段视频演示无人驾驶目标检测强大的对抗性样本!
☞ 【论文】CVPR 2017最佳论文出炉,DenseNet和苹果首篇论文获奖
☞ 【深度学习】解析深度学习的局限性与未来,谷歌Keras之父「连发两文」发人深省
☞ 苹果重磅推出AI技术博客,CVPR合成逼真照片论文打响第一枪
☞ 【Ian Goodfellow 五问】GAN、深度学习,如何与谷歌竞争
☞ 【巨头升级寡头】AI产业数据称王,GAN和迁移学习能否突围BAT垄断?
☞ 【高大上的DL】BEGAN: Boundary Equilibrium GAN
☞ 【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望
☞ 【最全GAN变体列表】Ian Goodfellow推荐:GAN动物园
☞ 【DCGAN】深度卷积生成对抗网络的无监督学习,补全人脸合成图像匹敌真实照片
☞ 【开源】收敛速度更快更稳定的Wasserstein GAN(WGAN)
☞ 【Valse 2017】生成对抗网络(GAN)研究年度进展评述
☞ 【开源】谷歌新推BEGAN模型用于人脸数据集:效果惊人!
☞ 【深度】Ian Goodfellow AIWTB开发者大会演讲:对抗样本与差分隐私
☞ 论文引介 | StackGAN: Stacked Generative Adversarial Networks
☞ 【纵览】从自编码器到生成对抗网络:一文纵览无监督学习研究现状
☞ 【论文解析】Ian Goodfellow 生成对抗网络GAN论文解析
☞ 【推荐】条条大路通罗马LS-GAN:把GAN建立在Lipschitz密度上
☞【Geometric GAN】引入线性分类器SVM的Geometric GAN
☞ 【GAN for NLP】PaperWeekly 第二十四期 --- GAN for NLP
☞ 【Demo】GAN学习指南:从原理入门到制作生成Demo
☞ 【学界】伯克利与OpenAI整合强化学习与GAN:让智能体学习自动发现目标
☞ 【人物 】Ian Goodfellow亲述GAN简史:人工智能不能理解它无法创造的东西
☞ 【DCGAN】DCGAN:深度卷积生成对抗网络的无监督学习,补全人脸合成图像匹敌真实照片
☞ 带你理解CycleGAN,并用TensorFlow轻松实现
☞ PaperWeekly 第39期 | 从PM到GAN - LSTM之父Schmidhuber横跨22年的怨念
☞ 【CycleGAN】加州大学开源图像处理工具CycleGAN
☞ 【SIGIR2017满分论文】IRGAN:大一统信息检索模型的博弈竞争
☞ 【贝叶斯GAN】贝叶斯生成对抗网络(GAN):当下性能最好的端到端半监督/无监督学习
☞ 【贝叶斯GAN】贝叶斯生成对抗网络(GAN):当下性能最好的端到端半监督/无监督学习
☞ 【GAN X NLP】自然语言对抗生成:加拿大研究员使用GAN生成中国古诗词
☞ ICLR 2017 | GAN Missing Modes 和 GAN
☞ 【学界】CMU新研究试图统一深度生成模型:搭建GAN和VAE之间的桥梁
☞ 【专栏】大漠孤烟,长河落日:面向景深结构的风景照生成技术
☞ 【开发】最简单易懂的 GAN 教程:从理论到实践(附代码)
☞ 【论文访谈】求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法
☞ 【LeCun论战Yoav】自然语言GAN惹争议:深度学习远离NLP?
☞ 【争论】从Yoav Goldberg与Yann LeCun争论,看当今的深度学习、NLP与arXiv风气
☞ 【观点】Yoav Goldberg撰文再回应Yann LeCun:「深度学习这群人」不了解NLP(附各方评论)
☞ PaperWeekly 第41期 | 互怼的艺术:从零直达 WGAN-GP