最新论文：华为诺亚ICLR满分论文；哈工程水下图像修复与增强新研究

会员服务 ·

最新论文：华为诺亚ICLR满分论文；哈工程水下图像修复与增强新研究

2020 年 1 月 8 日 计算机视觉life

点击上方“计算机视觉life”，选择“星标”

快速获得第一手干货

本文转载自机器之心。

本周的重要论文包括华为诺亚方舟实验室因果研究团队的 ICLR 2020 满分论文以及哈尔滨工程大学用于水下图像修复和增强的无监督生成对抗网络。

目录：

Casual Discovery With Reinforcement Learning
UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing
A Modern Introduction to Online Learning
The Decade of Deep Learning
Adaptive versus Standard Descent Methods and Robustness Against Adversarial Examples
Deep Learning for 3D Point Clouds: A Survey
FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

论文 1：Casual Discovery With Reinforcement Learning

作者：Shengyu Zhu、Ignavier Ng、Zhitang Chen
论文链接：https://arxiv.org/pdf/1906.04477.pdf

摘要：因果研究作为下一个潜在的热点，已经吸引了机器学习/深度学习领域的的广泛关注，例如 Youshua Bengio 和 Fei-Fei Li 近期都有相关的工作。因果研究中一个经典的问题是「因果发现」问题——从被动可观测的数据中发现潜在的因果图结构。在此论文中，华为诺亚方舟实验室因果研究团队将强化学习应用到打分法的因果发现算法中，通过基于自注意力机制的 encoder-decoder 神经网络模型探索数据之间的关系，结合因果结构的条件，并使用策略梯度的强化学习算法对神经网络参数进行训练，最终得到因果图结构。在学术界常用的一些数据模型中，该方法在中等规模的图上的表现优于其他方法，包括传统的因果发现算法和近期的基于梯度的算法。同时该方法非常灵活，可以和任意的打分函数结合使用。

基于自注意力机制的 Encoder-Decoder 模型。

上表是研究者在 LiNGAM 和线性高斯数据模型的实验结果。在该实验中，RL-BIC2 在两个数据模型上恢复了所有真实的因果图，而 RL-BIC 的表现稍差。尽管如此，在相同的 BIC 分数下，RL-BIC 在两个数据集上的表现均远好于 GES。

上表中研究者使用和 GraN-DAG 一样的实验条件： 10 个节点，40 条边的 DAG，并考虑 1000 个观测样本。

论文 2：UWGAN: Underwater GAN for Real-world Underwater Color Restoration and Dehazing

作者：Nan Wang、Yabin Zhou、Fenglei Han 等
论文链接：https://arxiv.org/ftp/arxiv/papers/1912/1912.10269.pdf
项目地址：https://github.com/infrontofme/UWGAN_UIE

摘要： 在真实水下环境中，海底资源探索、水下考古以及水下捕鱼等都要依赖各种传感器，其中视觉传感器因其高信息量、非嵌入性和被动属性而最为重要。但是，取决于波长的光衰减和反向散射会造成颜色失真和表面光雾效应，这又会降低图像的可视性。为了解决这些问题，来自哈尔滨工程大学的研究者在文中首先提出了一个无监督的生成对抗网络 UWGAN（UnderWater GAN），该网络基于改进的水下成像模型，从裸露在空气中的图像和深度图对中生成逼真的水下图像（依然存在颜色失真和表面光雾效应）。

接着，研究者利用合成水下数据集对 U-Net 进行高效地训练，而后将它用于色彩修复和去雾。他们提出的 UWGAN 模型能够利用端到端自编码网络来直接重建水下图像，同时保持场景内容的结构相似性。研究者将自己的方法与现有方法进行了定性和定量对比，并且实验结果表明提出的模型在公开的真实水下数据集上表现良好，在英伟达 1060 GPU 上运行时处理速度可达到 125fps。

UnderwaterGAN 架构示意图。 UWGAN 以彩色图像和深度图作为输入，然后通过生成对抗训练学习参数，进而基于水下光学成像模型合成逼真的水下图像。

用于水下图像修复和增强的 U-net 架构示意图。

增强前后的水下目标检测结果。 （A）真实水下图像； （B）利用模型增强后的输出图像。

推荐： 本文提出的无监督生成对抗网络专门适用于水下图像的修复和增强。

论文 3：A Modern Introduction to Online Learning

作者：Francesco Orabona
论文链接：https://arxiv.org/pdf/1912.13213.pdf

摘要： 在本专题论文中，研究者将通过在线凸优化（Online Convex Optimization）的现代化视角来介绍在线学习的基本概念。文中的在线学习指的是最坏假设下遗憾最小化（regret minimization）的框架。研究者展示了在欧几里得和非欧几里得设置下，具有凸损失在线学习的一阶和二阶算法。所有这些算法都以 Online Mirror Descent（OMD）、Fellow-The-Regularized Leader（FTRL）以及相关变体的实例来展现。论文中特别关注了通过自适应和无参数在线学习算法来微调算法的参数和无界域中学习的问题。非凸损失则通过凸代理损失（convex surrogate loss）和随机化来处理。论文中也简单讨论了 bandit 设置，并谈及了对抗性和随机化多臂 bandit 问题。

凸集和非凸集。

凸函数和非凸函数。

推荐： 这篇在线学习专题论文的作者是波士顿大学的助理教授 Francesco Orabona，他的主要研究领域是无参数机器学习。

论文 4：The Decade of Deep Learning

作者：Leo Gao
论文链接：https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

摘要： 在过去的十年中，伴随着计算能力和大数据方面的发展，深度学习已经攻克了许多曾经让我们感到棘手的问题，尤其是计算机视觉和自然语言处理方面。此外，深度学习技术也越来越多地走进我们的生活，变得无处不在。这篇文章总结了过去十年中在深度学习领域具有影响力的论文，从 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年还有很多荣誉提名，包括了众多名声在外的研究成果。

AlexNet 架构（2012 年）。

BERT 与 GPT、ELMo 的模型架构对比（2018 年）。

推荐： 在未来的几年里，人们对于神经网络的理解还会不断增加。人工智能的前景还是一片光明：深度学习是 AI 领域里最有力的工具，它会使我们进一步接近真正的智能。让我们期待 2020 年的新成果吧。

论文 5：Adaptive versus Standard Descent Methods and Robustness Against Adversarial Examples

作者：Marc Khoury
论文链接：https://arxiv.org/pdf/1911.03784.pdf

摘要： 对抗样本是机器学习模型中的普遍现象，其中对输入施加的看似觉察不到的扰动会导致统计学意义上准确的模型出现误分类。在本文中，来自加州大学伯克利分校的研究者探讨了优化算法如何影响生成分类器对对抗样本的鲁棒性。具体而言，他们展示了一个关于学习问题的示例，对于该学习问题，自适应优化算法解决方案对 L_2-和 L_∞-对抗的鲁棒性从定性角度弱于非自适应算法解决方案。接下来，研究者对最小二乘线性回归中 L_2-损失情况的几何结构进行充分地特征化处理。损失情况的几何结构微妙不易察觉，对优化算法产生重要影响。最后，实验结果表明，相较于自适应优化算法，非自适应算法能够持续地生成鲁棒性更强的模型。

推荐： 在论证过程中，研究者发现了重要的一点，自适应算法会对无关特征（irrelevant feature）造成不适当的影响，而这些无关特征会被对抗者充分利用，由此可能生成鲁棒性较弱的解决方案。

论文 6：Deep Learning for 3D Point Clouds: A Survey

作者：Yulan Guo、Hanyun Wang、Qingyong Hu 等
论文链接：https://arxiv.org/pdf/1912.12033.pdf

摘要： 近来，点云学习（point cloud learning）因其在计算机视觉、自动驾驶和机器人等诸多领域的广泛应用而吸引了越多越多的关注。作为 AI 领域的主要技术，深度学习已被成功地用于解决各种 2D 视觉问题。但是，由于配置深度神经网络的点云在处理过程中面临一些独特的挑战，所以点云领域的深度学习技术仍然处于发展初期。为了促进点云学习未来的研究，研究者在本文中全面综述了点云深度学习方法的研究进展。这些方法主要包括 3D 形状分类、3D 目标检测和追踪以及 3D 点云分割。此外，他们还展示了在当前一些公开可用数据集上的比较结果，提出了具有洞察力的观察结果和启发性的未来研究方向。

2015 年以来的 3D 形状分类网络汇总。

2016 年以来出现的基于深度学习的最相关 3D 目标检测方法汇总。

2017 年以来出现的基于深度学习的最相关点云语义分割方法汇总。

推荐： 本文整理了当前用于 3D 理解的 SOTA 方法，并对这些方法进行分类，比较了它们之间的性能。

论文 7：FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

作者：Lingzhi Li、Jianmin Bao、Hao Yang 等
论文链接：https://arxiv.org/pdf/1912.13457.pdf

摘要： 在本文中，研究者提出了一种新型的两段式框架——FaceShifter。这个框架可以实现高保真的换脸技术，在面部有遮挡时依然可以更好的工作。不像那些只利用有限信息就完成换脸任务的框架，该框架中的第一部分就自适应地整合利用了目标图像的所有属性以生成高保真的换脸图片。研究者提出了一种新型的属性编码器以提取人脸图像的多级属性，同时提出了一种基于 Adaptive Attentional Denormalization (AAD) 的新型生成器，自适应地整合人脸合成时所需的特征和属性。为了解决脸部遮挡的问题，他们在框架中加入了第二部分——Heuristic Error Acknowledging Refinement Network (HEAR-Net)。这个网络通过自监督的方式，在没有人工标注的情况下实现异常区域的修复。大量的人脸实验表明，本文中的换脸效果不仅在感官上更真实，还保留了比其他先进方法更多的个人特征。

以往方法在 FaceForensics++数据集上的失败案例。

本文提出的 FaceShifter 框架的换脸效果。

推荐： 在给定源人脸和目标图像的情况下，本文提出的框架能够实现非常逼真的换脸效果，并且不需要对目标图像进行专门训练。

交流群

欢迎加入公众号读者群一起和同行交流，目前覆盖SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、Re-id、强化学习、模型压缩剪枝、医学影像、GAN、算法竞赛等微信群，请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~