大会 | 优必选CVPR 2018录用论文摘要解读

2018 年 4 月 18 日 AI科技评论

优必选悉尼 AI 研究院有 4 篇被录用为 poster 论文。

AI 科技评论按：CVPR 2018 总投稿量超 4000 篇，最终录取数超 900 篇，录取率不到 23%。其中，优必选悉尼 AI 研究院有 4 篇论文被录用为 poster。论文详细解读如下：

#论文1：An Efficient and Provable Approach for Mixture Proportion Estimation Using Linear Independence Assumption

为了研究混合分布中各个组成分别的比例系数，假设各个组成分布满足线性独立的假设（即不存在一种组合系数，使得这些组成分布的线性组合所得到的分布函数处处为 0），并且假设每个组成分布中都可以采样到少量的数据。首先论证了组成分布线性独立（组成分布不相同即可）的假设要弱于现有的估计其比例方法的各种假设。其次，提出先将各个分布嵌入到再生核 Hilbert 空间，再利用最大平均差异的方法求取各组成分布的比例系数。该方法能够（1）保证比例系数的唯一性和可识别性；（2）保证估计的比例系数能够收敛到最优解，而且收敛率不依赖于数据本身；（3）通过求解一个简单的二次规划问题来快速获取比例系数。这项研究拥有广泛的应用背景，比如含有噪声标签的学习，半监督学习等等。

#论文2：Deep Ordinal Regression Network for Monocular Depth Estimation

在 3D 视觉感知主题里，单目图像深度估计是一个重要并且艰难的任务。虽然目前的方法已经取得了一些不错的成绩，但是这些方法普遍忽略了深度间固有的有序关系。针对这一问题，我们提出在模型中引入排序机制来帮助更准确地估计图像的深度信息。具体来说，我们首先将真值深度（ground-truth depth）按照区间递增的方法预分为许多深度子区间；然后设计了一个像素到像素的有序回归（ordinal regression）损失函数来模拟这些深度子区间的有序关系。在网络结构方面，不同于传统的编码解码（encoder-decoder）深度估计网络, 我们采用洞卷积（dilated convolution）型网络来更好地提取多尺度特征和获取高分辨率深度图。另外，我们借鉴全局池化和全连接操作，提出了一个有效的全局信息学习器。我们的方法在 KITTI，NYUV2 和 Make3D 三个数据集上都实现了当前最佳的结果。并且在 KITTI 新开的测试服务器上取得了比官方 baseline 高出 30%~70%的分数。

#论文3：Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

由于深度学习的成功，最近跨模态检索获得了显著发展。但是，仍然存在一个关键的瓶颈，即如何缩小多模态之间的模态差异，进一步提高检索精度。本文提出了一种自我监督对抗哈希（SSAH）方法。这种将对抗学习以自我监督的方式引入跨模态哈希研究，目前还处于研究早期。这项工作的主要贡献是采用了一组对抗网络来最大化不同模态之间的语义相关性和表示一致性。另外，作者还设计了一个自我监督的语义网络，这个网络针对多标签信息进一步挖掘高层语义信息，使用得到的语义信息作为监督来指导不同模态的特征学习过程，以此，模态间的相似关系可以同时在共同语义空间和海明空间两个空间内得以保持，有效地减小了模态之间的差异，进而产生精确的哈希码，提高检索精度。在三个基准数据集上进行的大量实验表明所提出的 SSAH 优于最先进的方法。

#论文4：Geometry-Aware Scene Text Detection with Instance Transformation Network

自然场景文字识别由于其文字外形、布局十分多变，是计算机视觉中具有挑战性的问题。在本文中，我们提出了几何感知建模方法（geometry-aware modeling）和端对端学习机制（end-to-end learning scheme）来处理场景文字编码的问题。我们提出了一种新的实例转换网络（instance transformation network），使用网内变换嵌入的方法学习几何感知编码，从而实现一次通过的文本检测。新的实例变换网络采用了转换回归，文本和非文本分类和坐标回归的端对端多任务学习策略。基准数据集上的实验表明了所提方法在多种几何构型下的有效性。

P.S. 优必选将于近期对 CVPR 2018 录用论文进行详细直播解读，敬请期待。

对了，我们招人了，了解一下？