【学界】基于生成对抗网络的多视图学习与重构算法

2018 年 7 月 12 日 GAN生成式对抗网络

来源：自动化学报

多视图学习与重构是指：在同一事物缺失部分视图数据的场景下，通过不同视图数据之间相关性的分析，构建其他视图，获得事物的完整表达。

在实际应用问题中，对于同一事物可以从多种不同的途径或不同的角度进行描述，这些不同的描述构成了事物的多个视图。事物的多视图数据在真实世界中广泛存在并且影响着人们生活的方方面面。例如：在与人们生活息息相关的互联网中，网页数据既可以用网页本身包含信息的特征集描述，也可以用超链接包含的信息描述。此外，同一事物由于数据采集方式不同，也可以有不同的表达方法。例如：使用不同传感器采集一个人的指纹就形成了多种不同的印痕，构成了指纹数据的多个视图。

多视图数据的不同表达方式

（a）一张网页由超链接或网页内容描述；(b) 一个指纹由光学指纹仪或电容式指纹仪采集；(c) 一个人由多种不同的视觉角度描述；（d）一张图片由音频或视频描述

同一事物的多视图数据可以有助于人们全面地认识事物，对事物进行更加精确的表达。然而，在现实场景中数据通常独立地收集、处理和存储。受环境因素的影响，给定一个实例，通常很难获得其所有视图的数据，并且可能由于存储管理等问题，发生视图信息缺失等情况。

因此，面对现实应用中复杂的多视图场景，如何利用已掌握的视图数据，构建事物的其他视图数据是亟需解决的问题。

构建视图示例

(a)纹理视图构建完整视图 (b) 缺失视图构建完整视图

如何利用单一已知视图构建其他视图？目前，一种较为通用的做法采用密度估计方法，即给定已知视图，估计其他视图的条件概率分布。但是不同视图间的表达方式是不全相同的，因此直接进行视图间的映射不是十分可行的。本文提出一种基于生成对抗网络的为多视图数据构建表征的算法。首先为不同的视图构建通用的表征向量，然后引入生成对抗网络的思想，恢复表征向量的信息和丰富自己独有的数据表达的信息。该算法有效避免了不同表达方式的视图间的直接映射，极大保留了各视图间的互信息，并利用对抗生成的方式解决了视图间重构的问题，提高了生成数据的真实性。对获得事物的全面性表达提供了有效的手段。最后，在手写体数字数据集、街景数字数据集和人脸数据集上的实验验证了该算法的可行性和有效性，并指出了未来有意义的研究工作。本文具体的贡献可以概括如下：

1)提出了多视图通用表征学习方法，避免了视图间的直接映射；

2)使用了生成对抗网络的思想构建视图数据，避免了传统的生成式方法，生成的样本更加接近于真实数据；

3)将已知视图的表征向量加入生成模型和判别模型中，解决了新视图数据与已知视图数据正确对应的问题。

引用格式

孙亮, 韩毓璇, 康文婧, 葛宏伟. 基于生成对抗网络的多视图学习与重构算法. 自动化学报, 2018, 44(5): 819-828

作者简介