【干货】2017年深度学习必读31篇论文(附论文下载地址)

2017 年 12 月 18 日 新智元





  新智元报道  

来源:kloudstrifeblog.wordpress.com

作者:Kloud Strife

译者:刘光明,费欣欣


【新智元导读】2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面,有些论文名扬四海,有些论文则非常低调。



一如既往,首先,标准免责声明适用,因为今年仅与GAN有关的论文就超过1660篇。我肯定会有疏漏,试图缩减到每两周一篇论文,包含了Imperial Deep Learning Reading Group上的大量素材。无论如何,我们开始吧。


架构/模型


今年的Convnet网络架构已经少得多,一切都稳定了。 有些论文肯定是在推动这项研究。 其中首先是安德鲁·布鲁克(Andrew Brock)的破解SMASH,尽管有ICLR的评论,但它已经在1000个GPU上进行了神经架构搜索。


SMASH:基于超网络的模型结构搜索

SMASH : one shot model architecture search through Hypernetworks

论文下载地址:https://arxiv.org/pdf/1708.05344.pdf


DenseNets(2017更新版)是一个印象深刻又非常单纯的想法。TLDR是“计算机视觉,眼+皮毛=猫,所以万物互联(包括层)”


密集的连接卷积神经

Densely connected convolutional networks

论文下载地址:https://arxiv.org/pdf/1608.06993.pdf


在CNNs,一个非常被低估的理念是小波滤波器组系数散射变换(conv+maxpool和ReLUctant组建小波理论)。不知何故,令人惊讶的是,这揭示了为什么一个ConvNet前几层像Gabor滤波器,以及你可能不需要培训他们。用Stephane Mallat的话,“我对它的工作原理非常吃惊!”见下文。


缩放散射变换

Scaling the Scattering Transform

论文下载地址:https://arxiv.org/pdf/1703.08961.pdf


在维基百科上,Tensorized LSTM是新的SOTA,有人英语的编码限制是1.0,1.1 BPC(作为参考,LayerNorm LSTMs大约是1.3 bpc)因为新颖,我更愿意把这篇论文定为“超级网络的复兴之路”。


序列学习Tensorized LSTMs

Tensorized LSTMs for sequence learning

论文下载地址:https://arxiv.org/pdf/1711.01577.pdf


最后,无需多言。

胶囊间动态路由

Dynamic Routing Between Capsules 

https://arxiv.org/pdf/1710.09829.pdf


EM路由矩阵胶囊

Matrix capsules with EM routing

论文下载地址:https://openreview.net/pdf?id=HJWLfGWRb


生成模型


我故意遗漏了英伟达关于GAN网络逐渐增大的令人颇为震惊的论文。


先用自回归家庭–Aaron van den Oord的最新力作,vq-vae,是其中的一个文件,看起来明显的滞后,但想出背景渐变止损功能也是不小的壮举。我敢肯定,一堆的迭代,包括包在ELBO’ed Bayesian层中的ala PixelVAE将会发挥作用。


神经离散表示学习

Neural Discrete Representation Learning

论文下载地址:https://arxiv.org/pdf/1711.00937.pdf


另一个惊喜来自并行WaveNetwavenet。当每个人都在期待着与Tom LePaine的工作成果保持一致,DeepMind给我们师生分离,并通过解释高维各向同性高斯/物流潜在空间,作为一个可以通过逆回归流自噪声整形的过程,。非常非常整洁。


并行Wavenet

Parallel Wavenet

论文下载地址:https://arxiv.org/pdf/1711.10433.pdf


头号文件,没有人预料到- Nvidia公司制定了标准。GAN理论完全代替了Wassersteinizing (Justin Solomon的力作),仅保持KL损失。用数据分布的多分辨率近似摒弃了不相交的支持问题。这仍然需要一些技巧来稳定梯度,但经验结果不言自明。


GAN逐渐增长

Progressive growing of GANs

论文下载地址:https://arxiv.org/pdf/1710.10196.pdf


而今年早些时候Peyre和genevay负责的法国学校定义了最小Kantorovich Estimators。这是Bousquet主导的谷歌团队,该团队曾写下了 VAE-GAN的最终框架。这篇WAAE论文可能是ICLR2018最顶级的论文之一。


VeGAN手册

The VeGAN cookbook

论文下载地址:https://arxiv.org/pdf/1705.07642.pdf


Wasserstein自动编码器

Wasserstein Autoencoders

论文下载地址:https://arxiv.org/pdf/1711.01558.pdf


在变分推理面前,没谁比Dustin Tran从强化学习策略和GAN中借鉴到的思路更好,再次推动了先进的VI。


层次式模型

Hierarchical Implicit Models

论文下载地址:https://arxiv.org/pdf/1702.08896.pdf


强化学习


 “被软件/ max-entropy Q-learning主导了一年,我们错了,这些年!

Schulman证实了RL算法的主要的两个成员之间的的等价性。里程碑式的论文,”Nuff 称。


策略梯度与Soft Q-learning的等价性。

Equivalence between Policy Gradients and Soft Q-learning

论文下载地址:https://arxiv.org/pdf/1704.06440.pdf


他有没有在非常仔细的用数学和重新做分区函数计算来证实路径的等价性?没有人知道,除了Ofir:


缩小RL策略和价值之间的差距

Bridging the gap between value and policy RL

论文下载地址:https://arxiv.org/pdf/1702.08892.pdf


另一篇被低估的论文,Gergely通过找出RL程式和convex 优化理论的相似点,默默的超越了所有人。今年IMHO有关RL论文的佳作,不过知名度不高。


统一的熵规则MDP的观点

A unified view of entropy-regularized MDPs

论文下载地址:https://arxiv.org/pdf/1705.07798.pdf


如果David Silver的Predictron因某种方式丢掉雷达在ICLR 2017被拒绝,那么Theo的论文就像是一个双重的观点,它以优美而直观的Sokoban实验结果来启动:


想象力增强剂

Imagination-Augmented Agents

论文下载地址:https://arxiv.org/pdf/1707.06203.pdf


马克·贝莱马尔(Marc Bellemare)发布了另外一个转型的论文 - 废除了所有的DQN稳定插件,并简单地学习了分发(并且在这个过程中击败了SotA)。 漂亮。 许多可能的扩展,包括与Wasserstein距离的链接。


有分位数回归的RL 

A distributional perspective on RL

论文下载地址:https://arxiv.org/pdf/1707.06887.pdf


分布RL的分布视角

Distributional RL with Quantile Regression

论文下载地址:https://arxiv.org/pdf/1710.10044.pdf


一个简单,但非常有效,双重whammy的想法。


勘探用噪声网络

Noisy Networks for Exploration

论文下载地址:https://arxiv.org/pdf/1706.10295.pdf


当然,如果没有AlphaGo Zero的话,这个列表还是不完整的。 将策略网络MCTS前后对齐的思想,即MCTS作为策略改进算法(以及使NN近似误差平滑而不是传播的手段)是传说的东西。


在没有人类知识的情况下掌控Go游戏

Mastering the game of Go without human knowledge

论文下载地址:https://deepmind.com/documents/119/agz_unformatted_nature.pdf

 

SGD & 优化 


对于为什么SGD在非凸面情况下的工作方式(从广义误差角度来看如此难以打败),2017年已经是一年一度的成熟了。


今年的“最技术”论文获得者是Chaudhari。 从SGD和梯度流向PDE几乎连接了一切。 堪称遵循并完成“Entropy-SGD”的杰作:


深度放松:用于优化深度网络的偏微分方程

Deep Relaxation : PDEs for optimizing deep networks

论文下载地址:https://arxiv.org/pdf/1704.04932.pdf


贝叶斯认为这是Mandt&Hoffman的SGD-VI连接。 如你所知,我多年来一直是一个繁忙的人,原文如此。


SGD作为近似贝叶斯推断

SGD as approximate Bayesian inference

论文下载链接:https://arxiv.org/pdf/1704.04289.pdf


前面的文章取决于SGD作为随机微分方程的连续松弛(由于CLT,梯度噪声被视为高斯)。 这解释了批量大小的影响,并给出了一个非常好的chi-square公式。


批量大小,diffusion近似框架

Batch size matters, a diffusion approximation framework

论文下载地址:https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/


又一篇受Ornstein-Uhlenbeck启发的论文,得到了类似的结果,出自Yoshua Bengio实验室:


影响SGD最小值的三个因素

Three factors influencing minima in SGD

论文下载地址:https://arxiv.org/pdf/1711.04623.pdf


最后,又一篇Chandhari的论文,讲述SGD-SDE-VI三位一体:


SGD执行VI,收敛到限制周期

SGD performs VI, converges to limit cycles

论文下载地址:https://arxiv.org/pdf/1710.11029.pdf


理论


我坚信在解释深度学习为什么有用方面,答案将来自谐波/二阶分析和信息论与基于熵的测量之间的交集。 Naftali Tishby的想法虽然因为最近ICLR 2018提交的内容引发了争议,但这仍然使我们更加接近理解深度学习。


论通过信息论揭开深度网络黑箱

Opening the black box of deep networks via information 

论文下载地址:https://openreview.net/pdf?id=ry_WPG-A-


论深度学习的信息瓶颈理论

On the information bottleneck theory of deep learning

论文下载地址:https://arxiv.org/pdf/1703.00810.pdf


同样,来自ICLR2017的一篇漂亮的论文对信息瓶颈理论采取了一种变化的方法。


深度变分的信息瓶颈

Deep variational information bottleneck

论文下载地址:https://arxiv.org/pdf/1612.00410.pdf


今年已经有几十亿个生成模型,12亿个因子分解对数似然的方法,大都可以归在凸二元的下面。


A Lagrangian perspective on latent variable modelling

对潜变量建模的拉格朗日观点

论文下载地址:https://openreview.net/pdf?id=ryZERzWCZ


最后这篇论文展示了惊人的技术实力,并且告诉我们,数学深度学习的军备竞赛仍然十分活跃!这篇论文结合了复杂的分析,随机矩阵理论,自由概率和graph morphisms,得出了对于神经网络损失函数的Hessian特征值的一个精确的定律,而图(graph)的形状只在经验上是已知的,这一点在Sagun等人的论文中有论述。必读。


通过RMT看神经网络损失曲面几何

Geometry of NN loss surfaces via RMT

论文下载地址:http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf


深度学习非线性RMT

Nonlinear RMT for deep learning

论文下载地址:http://papers.nips.cc/paper/6857-nonlinear-random-matrix-theory-for-deep-learning.pdf

 


原文地址:https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/



登录查看更多
1

相关内容

arXiv(X依希腊文的χ发音,读音如英语的archive)是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站,始于1991年8月14日。截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。在2014年时,约以每月8000篇的速度增加。
专知会员服务
60+阅读 · 2020年3月19日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
60+阅读 · 2020年1月10日
必读的7篇 IJCAI 2019【图神经网络(GNN)】相关论文
专知会员服务
91+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
2018最具突破性计算机视觉论文Top 10
炼数成金订阅号
16+阅读 · 2019年2月15日
必读!2018最具突破性计算机视觉论文Top 10
新智元
8+阅读 · 2019年2月15日
大神 一年100篇论文
CreateAMind
15+阅读 · 2018年12月31日
10篇必读的机器学习干货文章
专知
4+阅读 · 2018年5月20日
论文荐读 | NLP之Attention从入门到精通
人工智能前沿讲习班
5+阅读 · 2018年5月14日
深度学习领域引用量前10篇论文(附下载地址)
七月在线实验室
5+阅读 · 2018年4月20日
干货 | 深度学习论文汇总
AI科技评论
4+阅读 · 2018年1月1日
【精选干货】2017年12月份机器学习排名前10名文章(论文+代码)
量化投资与机器学习
3+阅读 · 2017年12月21日
2017深度学习优秀论文盘点 | 资源
人工智能头条
6+阅读 · 2017年12月19日
[编程经验] CVPR2017论文全集下载代码脚本分享
机器学习和数学
9+阅读 · 2017年7月27日
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
13+阅读 · 2020年4月12日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
5+阅读 · 2018年5月21日
Arxiv
9+阅读 · 2018年5月7日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
2020图机器学习GNN的四大研究趋势,21篇论文下载
专知会员服务
135+阅读 · 2020年2月10日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
必读的7篇IJCAI 2019【图神经网络(GNN)】相关论文-Part2
专知会员服务
60+阅读 · 2020年1月10日
必读的7篇 IJCAI 2019【图神经网络(GNN)】相关论文
专知会员服务
91+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
相关资讯
2018最具突破性计算机视觉论文Top 10
炼数成金订阅号
16+阅读 · 2019年2月15日
必读!2018最具突破性计算机视觉论文Top 10
新智元
8+阅读 · 2019年2月15日
大神 一年100篇论文
CreateAMind
15+阅读 · 2018年12月31日
10篇必读的机器学习干货文章
专知
4+阅读 · 2018年5月20日
论文荐读 | NLP之Attention从入门到精通
人工智能前沿讲习班
5+阅读 · 2018年5月14日
深度学习领域引用量前10篇论文(附下载地址)
七月在线实验室
5+阅读 · 2018年4月20日
干货 | 深度学习论文汇总
AI科技评论
4+阅读 · 2018年1月1日
【精选干货】2017年12月份机器学习排名前10名文章(论文+代码)
量化投资与机器学习
3+阅读 · 2017年12月21日
2017深度学习优秀论文盘点 | 资源
人工智能头条
6+阅读 · 2017年12月19日
[编程经验] CVPR2017论文全集下载代码脚本分享
机器学习和数学
9+阅读 · 2017年7月27日
相关论文
A survey on deep hashing for image retrieval
Arxiv
14+阅读 · 2020年6月10日
Arxiv
13+阅读 · 2020年4月12日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
5+阅读 · 2018年5月21日
Arxiv
9+阅读 · 2018年5月7日
Top
微信扫码咨询专知VIP会员