【ICLR2020】会议的16篇最佳深度学习论文

2020 年 5 月 13 日 深度学习自然语言处理

作者：Kamil Kaczmarek

编译：ronghuaiyang

导读

给大家介绍一下今年的ICLR上的最佳16篇深度学习论文。

上周，我很荣幸地参加了学习表现国际会议(ICLR)，这是一个致力于深度学习各方面研究的活动。最初，会议本应在埃塞俄比亚首Addis Ababa召开，但由于新型冠状病毒大流行，会议变成了虚拟会议。把活动搬到网上对组织者来说是一个挑战，但是我认为效果非常令人满意！

1300多名演讲者和5600名与会者证明，虚拟形式更容易为公众所接受，但与此同时，会议保持了互动和参与。从许多有趣的演讲中，我决定选择16个，这些演讲既有影响力又发人深省。以下是来自ICLR的最佳深度学习论文。

1. On Robustness of Neural Ordinary Differential Equations

2. Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

3. Target-Embedding Autoencoders for Supervised Representation Learning

4. Understanding and Robustifying Differentiable Architecture Search

5. Comparing Rewinding and Fine-tuning in Neural Network Pruning

6. Neural Arithmetic Units

7.The Break-Even Point on Optimization Trajectories of Deep Neural Networks

8. Hoppity: Learning Graph Transformations To Detect And Fix Bugs In Programs

9. Selection via Proxy: Efficient Data Selection for Deep Learning

10. And the Bit Goes Down: Revisiting the Quantization of Neural Networks

11. A Signal Propagation Perspective for Pruning Neural Networks at Initialization

12. Deep Semi-Supervised Anomaly Detection

13. Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells

14. Federated Learning with Matched Averaging

15. Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation

16. Network Deconvolution

最佳深度学习论文

1. On Robustness of Neural Ordinary Differential Equations

深入研究了神经常微分方程或神经网络的鲁棒性。使用它作为构建更健壮的网络的基础。

论文：https://openreview.net/forum?id=B1e9Y2NYvS

ODENet的结构，神经ODE块作为一个保维非线性映射。

第一作者：Hanshu YAN

2. Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity

证明梯度裁剪可加速非光滑非凸函数的梯度下降。

论文：https://openreview.net/forum?id=BJgnXpVYwS

代码：https://github.com/JingzhaoZhang/why-clipping-accelerates

PTB数据集上AWD-LSTM (Merity et al.， 2018)训练轨迹上的对数尺度上的梯度范数vs局部梯度Lipschitz常数。颜色条表示在训练过程中迭代的次数。

第一作者：Jingzhao Zhang

3. Target-Embedding Autoencoders for Supervised Representation Learning

新的，通用目标嵌入自动编码器或者说TEA监督预测框架。作者给出了理论和经验的考虑。

论文：https://openreview.net/forum?id=BygXFkSYDH

(a)特征嵌入和(b)目标嵌入自动编码器。实线对应于(主要)预测任务，虚线为(辅助)重建任务。两者都涉及到共享组件。

第一作者：Daniel Jarrett

4. Understanding and Robustifying Differentiable Architecture Search

通过分析验证损失的海塞矩阵的特征值，研究了DARTS（可微结构搜索）的失效模式，并在此基础上提出了相应的对策。

论文：https://openreview.net/forum?id=H1gDNyrKDS

代码：https://github.com/automl/RobustDARTS

在Space1到Space4上，DARTS发现的差的网格标准。对于所有的空间，DARTS选择的大多是无参数的操作(跳过连接)，甚至是有害的噪声操作。

第一作者: Arber Zela

5. Comparing Rewinding and Fine-tuning in Neural Network Pruning

在修剪神经网络时，不需要在修剪后进行微调，而是将权值或学习率策略倒回到它们在训练时的值，然后再从那里进行再训练，以达到更高的准确性。

论文：https://openreview.net/forum?id=S1gSj0NKvB

代码：https://github.com/lottery-ticket/rewinding-iclr20-public

通过一次修剪获得再训练时间的最佳可达到的精度。

![Alex Renda](The Best Deep Learning Papers from the ICLR 2020 Conference.assets/5-Alex-Renda.jpg)

第一作者：Alex Renda

6. Neural Arithmetic Units

神经网络虽然能够逼近复杂的函数，但在精确的算术运算方面却很差。这项任务对深度学习研究者来说是一个长期的挑战。在这里，我们介绍了新的神经加法单元(NAU)和神经乘法单元(NMU)，它们能够执行精确的加法/减法(NAU)和向量子集乘法(MNU)。

论文：https://openreview.net/forum?id=H1gNOeHKPS

代码：https://github.com/AndreasMadsen/stable-nalu

NMU的可视化，其中权值(Wi,j)控制门控的值1(identity)或xi，然后显式地乘上每个中间结果以形成zj。

第一作者：Andreas Madsen

7. The Break-Even Point on Optimization Trajectories of Deep Neural Networks

在深度神经网络训练的早期阶段，存在一个决定整个优化轨迹性质的“均衡点”。

论文：https://openreview.net/forum?id=r1g87C4KwB

早期训练轨迹的可视化，CIFAR-10(之前训练精度达到65%)的一个简单的CNN模型优化使用SGD学习率η= 0.01(红色)和η= 0.001(蓝色)。训练轨迹上的每个模型(显示为一个点)通过使用UMAP将其测试预测嵌入到一个二维空间中来表示。背景颜色表示梯度K (λ1K, 左)的协方差归一化频谱和训练精度(右)。对于小的η，达到我们所说的收支平衡点后，对于同样的训练精度(右)，轨迹是引向一个地区，这个区域具有更大λ1K(左)的特点。

第一作者：Stanisław Jastrzębski

8. Hoppity: Learning Graph Transformations To Detect And Fix Bugs In Programs

一种基于学习的方法，用于检测和修复Javascript中的bug。

论文：https://openreview.net/forum?id=SJeqs6EFvB

演示现有方法的局限性的示例程序包括基于规则的静态分析器和基于神经的错误预测器。

第一作者：Elizabeth Dinella

9. Selection via Proxy: Efficient Data Selection for Deep Learning

通过使用一个更小的代理模型来执行数据选择，我们可以显著提高深度学习中数据选择的计算效率。

论文：https://openreview.net/forum?id=HJg2b0VYDr

代码：https://github.com/stanford-futuredata/selection-via-proxy

SVP应用于主动学习(左)和核心集选择(右)。在主动学习中，我们遵循了相同的迭代过程，即训练和选择标记为传统方法的点，但是用计算成本更低的代理模型代替了目标模型。对于核心集的选择，我们学习了使用代理模型对数据进行特征表示，并使用它选择点来训练更大、更精确的模型。在这两种情况下，我们发现代理和目标模型具有较高的rank-order相关性，导致相似的选择和下游结果。

第一作者：Cody Coleman

10. And the Bit Goes Down: Revisiting the Quantization of Neural Networks

采用结构化量化技术对卷积神经网络进行压缩，实现更好的域内重构。

论文：https://openreview.net/forum?id=rJehVyrKwH

代码：https://drive.google.com/file/d/12QK7onizf2ArpEBK706ly8bNfiM9cPzp/view?usp=sharing

图解我们的方法。我们近似一个二元分类器ϕ，通过量化权重把图像标记为狗或猫。标准方法：使用标准目标函数来量化 ϕstandard，(1)提升分类器ϕ，试图在整个输入空间上近似ϕ，因此对于域内的输入可能表现很差。我们的方法：用我们的目标函数量化ϕ(2)提升分类器ϕbactivations，使之对于域内输入表现良好。在输入空间的图像由ϕactivations正确分类，但ϕstandard不正确。

第一作者：Pierre Stock

11. A Signal Propagation Perspective for Pruning Neural Networks at Initialization

我们正式描述了初始化时有效剪枝的初始化条件，并分析了得到的剪枝网络的信号传播特性，提出了一种增强剪枝网络可训练性和剪枝效果的方法。

论文：https://openreview.net/forum?id=HJeTo2VFwH

(左)layerwise稀疏模式c∈{0,1} 100×100获得剪枝水平为κ¯= {10 . .90}%的效果。这里，黑色(0)/白色(1)像素为修剪/保留参数，(右)各层参数的连接灵敏度(CS)所有网络初始化γ=1.0。与线性情况不同，tanh网络的稀疏模式在不同层上是不均匀的。当进行高等级剪枝的时候(例如，κ¯= 90%)，这成为关键，导致学习能力差，只有几个参数留在后面的层。这是由连接灵敏度图所解释的，图中显示，对于非线性网络参数，后一层的连接灵敏度低于前一层。

第一作者：Namhoon Lee

12. Deep Semi-Supervised Anomaly Detection

我们介绍了Deep SAD，一种用于一般性的半监督异常检测的深度方法，特别利用了异常的标记。

论文：https://openreview.net/forum?id=HkgH0TEYwH

代码：https://github.com/lukasruff/Deep-SAD-PyTorch

半监督异常检测的需要：训练数据(如(a)所示)由(大部分正常)未标记数据(灰色)和少数标记正常样本(蓝色)和标注的异常样本(橙色)组成。图(b) - (f)显示了测试时各种学习模式的决策边界，以及出现的新异常(每个图的左下角)。我们的半监督AD方法利用了所有的训练数据：未标记的样本，标记的正常样本，以及标记的异常样本。这在单类别学习和分类之间取得了平衡。

第一作者：Lukas Ruff s

13. Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells

我们提出了一个名为Space2vec的表示学习模型来编码位置的绝对位置和空间关系。

论文：https://openreview.net/forum?id=rJljdh4KDH

代码：https://github.com/gengchenmai/space2vec

具有非常不同特征的联合建模分布的挑战。(a)(b)拉斯维加斯的POI位置(红点)以及Space2Vec预测了女装(使用聚类分布)和教育(使用均匀分布)的条件似然。(b)中的黑色区域表明市中心区域的其他类型的POIs比教育多。(c)相对于wrap， Space2Vec具有最大和最小改进的POI类型的Ripley的K曲线(Mac Aodha et al.， 2019)。每条曲线表示以某一类型的点为中心的某一半径内某一类型点的点的个数(d)用POI密度重新规格化的Ripley’s K曲线，并以对数刻度表示。为了高效地实现多尺度表示，Space2Vec将64个尺度(波长从50米到40k米不等)的网格单元编码作为深度模型的第一层，并以无监督的方式与POI数据进行训练。

第一作者：Gengchen Mai

14. Federated Learning with Matched Averaging

使用分层匹配来实现联邦学习的高效交流。

论文：https://openreview.net/forum?id=BkluqlSFDS

代码：https://github.com/IBM/FedMA

在MNIST上进行有限次数的LeNet联邦学习方法的比较，在CIFAR-10数据集上训练VGG-9，LSTM在莎士比亚数据集上训练:(a)同构数据(b)异构数据

第一作者：Hongyi Wang

15. Chameleon: Adaptive Code Optimization for Expedited Deep Neural Network Compilation

深度神经网络优化编译的增强学习和自适应采样。

论文：https://openreview.net/forum?id=rygG4AVFvH

我们的模型编译工作流的概要，突出显示的是这项工作的范围。

第一作者：Byung Hoon Ahn

16. Network Deconvolution

为了更好地训练卷积网络，我们提出了一种类似于动物视觉系统的网络反卷积方法。

论文：https://openreview.net/forum?id=rkeu30EtvS

代码：https://github.com/yechengxi/deconvolution

使用相关滤波器(例如高斯核)对这个真实世界的图像进行卷积，将相关性添加到生成的图像中，这使得目标识别更加困难。去除这种模糊的过程称为反卷积。但是，如果我们看到的真实世界的图像本身是某种未知的相关滤波器的结果，这使得识别更加困难呢？我们提出的网络反卷积操作可以去除底层图像特征之间的关联，使得神经网络能够更好地执行。

第一作者：Chengxi Ye

总结

ICLR的深度和广度相当鼓舞人心。在这里，我只介绍了“深度学习”主题的冰山一角。然而，这一分析表明，有一些是很受欢迎的领域，特别是：

深度学习(本文涵盖)
强化学习
生成模型
自然语言处理/理解

为了更全面地概述ICLR的顶级论文，我们正在撰写一系列文章，每一篇都集中在上面提到的一个主题上。

—END—

英文原文：https://neptune.ai/blog/iclr-2020-deep-learning

投稿或交流学习，备注： 昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

登录查看更多

相关内容

Neural Networks

关注 1648

神经网络（Neural Networks）是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛，以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交，有助于全面的神经网络研究，从行为和大脑建模，学习算法，通过数学和计算分析，系统的工程和技术应用，大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流，并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此，神经网络编委会代表的专家领域包括心理学，神经生物学，计算机科学，工程，数学，物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学，神经科学，学习系统，数学和计算分析、工程和应用。官网地址：http://dblp.uni-trier.de/db/journals/nn/

近期必读的六篇顶会 ICML 2020【图神经网络 (GNN) 】相关论文

专知会员服务

143+阅读 · 2020年6月23日

【快讯】ICML 2020论文出炉，1088篇上榜，你的paper中了吗？

专知会员服务

52+阅读 · 2020年6月1日

近期必读的五篇顶会ACL 2020【图神经网络 (GNN) 】相关论文

专知会员服务

81+阅读 · 2020年5月5日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日