AAAI2019录用论文选读

2018 年 11 月 21 日 人工智能前沿讲习班

导读

AAAI Conference是由美国人工智能协会（the Association for the Advance of Artificial Intelligence）每年举办一次的人工智能方面的顶级会议。近期AAAI2019的录取结果已出，投稿数量高达7745篇，录用率仅为16.2%。中科院自动化所研究所智能感知与计算研究中心7篇论文入选。

1. Disentangled Variational Representation for Heterogeneous Face Recognition

Xiang Wu, Huaibo Huang, Vishal M Patel, Ran He, Zhenan Sun

随着深度学习在人脸识别中的广泛应用以及手机移动终端的普及，异质人脸识别受到越来越多研究人员的关注。由于较大的模态差异以及缺乏足够多的训练数据，近红外-可见光异质人脸识别目前仍是一个有挑战性的问题。本文提出了一种变分解表达（Disentangled Variational Representation，DVR）方法来提高异质人脸识别的性能。受到生成式模型启发，我们试图在特征学习过程中引入重采样策略，来缓解卷积神经网络全连接层参数过多以至于过学习的问题。我们尝试去寻找一个独立的隐变量，利用变分下界优化近似后验概率分布，希望可以将人脸特征中所包含的身份信息和光谱信息进行解耦。为了更有效地求解身份特征表达，我们进一步假设近红外和可见光信息存在一个线性投影关系，从而约束了参数的求解空间。我们提出的变分解表达方法在CASIA NIR-VIS 2.0, Oulu-CASIA NIR-VIS和BUAA-VisNir三个数据库上显著地提高了异质人脸识别精度。

2. Geometry-Aware Face Completion and Editing

Linsen Song, Jie Cao,Lingxiao Song, Yibo Hu, Ran He

人脸补全是一项具有挑战性的图像生成任务。该任务要求对于输入的有遮挡的人脸图片生成视觉上真实的缺失内容,并且该生成的内容需要与未遮挡的内容相一致。我们提出了一种利用人脸几何信息来辅助人脸补全的模型。同时,相较于前人的模型,我们的模型还可以通过交互地修改人脸的几何信息来修改人脸的属性。首先,将有遮挡的人脸图片输入到“人脸几何信息估计网络”来推断合理的人脸几何信息图,其中包括人脸68个关键点的热度图和人脸语意分割图; 然后,将有遮挡的人脸几何图片与推断的人脸几何信息图直接串联为一个整体, 该整体输入到人脸补全的生成器中以生成完整的人脸; 最后,在图片补全中常用的全局与局部判别器将分别判断生成的完整人脸以及生成的补全区域内容的真伪性,由此提供人脸补全的对抗训练。最终我们的算法在MultiPIE与CelebA数据库上均取得了比目前人脸补全方法好的测试结果。

3. Visual-semantic Graph Reasoning for Pedestrian Attribute Recognition

Qiaozhe Li, Xin Zhao, Ran He, Kaiqi Huang

在监控场景下的行人属性识别中，较低的图像分辨率、显著的行人外观变化和属性定位的多样性使得这一任务极具挑战。在这篇文章中，我们将行人属性识别作为属性序列预测的问题，并且提出了一种新的视觉语义图推理框架来解决这一问题。我们的框架包含两种类型的图，分别用于建模空间关系和属性关系。通过图卷积网络（Graph Convolutional Network）进行推理，这两种类型的图可以分别描述图像局部区域的空间关系和属性的潜在语义关系。我们提出了端到端的学习框架，在这两个图之间实现了信息的互嵌入以指导彼此的关系学习。我们在三个大型行人属性数据集（PETA，RAP和PA-100k）上验证了所提出的框架。实验表明所提出的方法优于现有技术方法，同时证明了我们提出的协同训练框架在属性序列预测任务上的有效性。

4. Session-based Recommendation with Graph Neural Network

Shu Wu, Yuyuan Tang, Yanqiao Zhu, Liang Wang, Xing Xie, Tieniu Tan

会话(session)是服务器端用来记录识别用户的一种机制。在推荐系统中，基于会话的推荐(session-based recommendation)是依据一个时间窗口内用户连续的行为进行推荐。比如，一位用户在登录淘宝的这段时间里连续点击了10个商品，那么这10个商品就构成了一个短序列。由于会话数据具有海量、匿名的特点，session-basedrecommendation近来受到了广泛的关注。

为了更好地捕获会话的结构并考虑节点间的转换，我们提出了一种基于图形神经网络(graph neural network, GNN) 的会话推荐 (SR-GNN)方法。该方法将所有会话序列聚合在一起并建模为图结构。基于该图，GNN可以捕获项目的转换关系。之后我们使用注意力机制 (attention mechanism) 将每个会话表示为全局偏好和会话当前兴趣的组合并据此进行推荐。在两个开源数据上，我们的模型性能持续并显著地好于其他state-of-the-art方法。

5. Human-like Delicate Region Erasing Strategy for Weakly Supervised Detection

Qing En, Lijuan Duan, Zhaoxiang Zhang, Xiang Bai, Yundong Zhang

随着数据和对任务需求多样性的不断增长，获得大量用于训练深度学习的标注数据会花费巨大的金钱和时间成本。然而，在许多任务中，由于数据标注过程的成本极高，很难获得强监督标注信息。因此，在弱监督条件下进行图像的目标区域检测是要解决的关键问题。弱监督条件下进行视觉注意区域感知的难点在于训练样本没有强监督训练目标，使建模过程只基于弱监督标签，难以建立数据与目标之间的直接联系。

针对此问题，我们充分利用弱监督标签指导下的自底向上和自顶向下信息，采用深度强化学习(deep reinforcement learning)的方法构建输入数据、弱监督标记、目标三者间的关系，通过模拟人类聚焦动作，迭代进行区域检测。该方法从弱监督标记数据驱动的神经网络模型产生的特征图以及目标区域对于分类置信度的贡献出发，通过深度Q网络(deep Q-network)从动作空间中得到最优动作策略，迭代关注目标物体区域，选择最显著且对于分类置信度贡献大的区域作为视觉注意选择区域。该方法能有效地模仿人类的视觉机理，在两个公开数据集上的实验结果表明，在显著提升检测效率的同时，能够达到与其他state-of-the-art相当的效果。

6. Few-Shot Image and Sentence Matching via Gated Visual-Semantic Embedding

Yan Huang, Yang Long, Liang Wang

图像文本匹配最近受到了广泛的关注和研究，大部分已有工作主要侧重于解决图像文本之间的语义鸿沟问题。我们通过分析已有实验结果发现，目前最好的深度学习算法无法很好地解决小样本图像文本匹配的问题。因此，为了解决小样本匹配问题，我们提出了一个双流视觉语义嵌入网络，可以分别有针对性地解决频繁出现和不频繁出现的图像文本匹配问题。我们在公开数据集Flickr30k和MSCOCO上进行了大量实验，发现我们的模型无论在传统图像文本匹配还是小样本图像文本匹配任务上均取得了当前领先的结果。

7. Attention-aware Sampling via Deep Reinforcement Learning for Action Recognition

Wenkai Dong, Zhaoxiang Zhang, Tieniu Tan

深度学习在基于视频的行为识别领域取得了显著进展，大多数工作通过设计复杂的网络结构来学习视频的特征表示。在测试阶段，这些方法认为视频中的每一帧重要性相同，即对于一个待测试视频，以相同的步长对视频进行采样，然后将深度神经网络模型对每一帧的行为预测融合得到整个视频行为预测。然而，在一段视频中，具有判别力的行为可能只分散的分布在视频的部分帧中，大多数的帧与视频标注的行为无关甚至导致模型产生错误的行为预测。

因此，本文提出了一种注意力导向的采样方法，该方法可以在剔除视频中无关的帧的同时保留具有判别力的关键帧。由于缺少视频中关键帧的标注，本文将挖掘关键帧的过程形式化为马尔可夫决策过程，在不使用额外标注数据的条件下通过深度强化学习训练方法中使用的智能体。智能体根据每一帧的特征向量以及该帧对分类置信度的贡献，通过一次迭代对所有帧进行重要性评分，选择得分高的帧作为时域注意区域。在两个开源数据上，我们的模型取得很有竞争力的性能。