AI 科技评论按:本篇属于「顶会见闻系列」。作为一个研究人员们欣赏彼此论文、讨论学术话题的严肃学术顶级会议,NIPS 今年颇为热闹,前有「11 分钟售罄门票」事件,让大家见识到了人工智能和机器学习的火爆程度堪比 Taylor Swift 演唱会,后又改名 NeurIPS 引起纷纷热议,并给大家带来了一道「1NeurIPS 该怎么发音」的难题。对于 NIPS 改名后的首场盛会 NeurIPS 2018,想必大家的期待都要远远超乎往年了。如果大家很遗憾地没有奔赴现场一探究竟的话,那就来看看其他参会者的见闻总结和分享吧,说不定会有新的收获呢?
作者 Félix 是 AI 与大数据解决方案公司 sicara.com 技术博客作者之一,这篇文章中,他首先也对 NeurIPS 2018 的火爆程度发表了自己的一些感慨,之后则给大家带来了一份论文精选,特别挑选出了一些能够全面概述人工智能的不同领域的高质量论文,领域覆盖神经网络、深度学习、非监督学习、视频预测等各个细分领域,希望能让大家稍微感受到一些 NeurIPS 的现场氛围。 AI 科技评论全文编译如下。
对于今年没能参加 NeurIPS(前称 NIPS)感到可惜?所以我就写了这篇 2018 年版的论文选读,现在分享给你。
NeurIPS(神经信息处理系统大会,前称 NIPS)现在的热度盖过了 Beyoncé 演唱会,今年,这场最盛大的人工智能会议,门票 11 分钟就宣告售罄。此外,今年会议接受的论文数量也创下记录(超过一千篇)。
在下面的论文选读中,你会发现我希望给你传递一点 NeurIPS 的氛围。我的目标是找到那些能够全面概述人工智能的不同领域的高质量论文,当然,这份选读无法做到详尽并且有些主观。
《SING: Symbol-to-Instrument Neural Generator》,Alexandre Défossez (FAIR, PSL, SIERRA), Neil Zeghidour (PSL, FAIR, LSCP), Nicolas Usunier (FAIR), Léon Bottou (FAIR), Francis Bach (DI-ENS, PSL, SIERRA)
论文下载地址
https://arxiv.org/abs/1810.09785
这篇论文提出了一种新的神经音频合成器:从音符到乐器的神经生成器(SING)。这个模型可以从几百个具有不同音高和因素的乐器中产生音乐。
SING 可以直接产生取样为 16000 Hz 的 4 秒波形,并且具备轻量级架构。其网络的第一部分是 LSTM(长短期记忆网络),它采用所使用的乐器、音高和音速三者的独热码级联作为输入,并在 265 个时间步长期间被使用。一个卷积网络会对级联的输出进行解码并生成音频波形。
这个网络使用了一种特殊的损失:波形和目标波形的对数频谱图(通过短时傅里叶变换获得)之间的 1-范数。
SING 得出了非常好的结果(在这里 https://research.fb.com/wp-content/themes/fb-research/research/sing-paper/收听音频样本),目前为止,比参考网络 Wavenet 表现更好。这个网络仅专用于乐器,不过它最显著的成果体现在处理时间上,它的速度比 Wavenet 快 2500 倍。
《Deep Anomaly Detection Using Geometric Transformations》,Izhak Golan, Ran El-Yaniv
论文下载地址
https://arxiv.org/abs/1805.10917
这篇来自以色列理工学院的论文,旨在将深度学习模型充分利用于异常检测领域。
目前最新的技术是自动编码器(它检测嵌入或重构数据中的异常),该论文提议对数据进行一组几何变换,然后将判别模型应用到变换后的实例上(分数低的图像将被视为异常)。对分类器进行训练来区分变换后的图像,从而使其学习显著的几何特征,其中的一些特征可能区分异常数据。就性能而言,这种方法对度量带来的改进是空前的:与当前在 CatsVsDogs 上表现最好的算法相比,表现最好的基线 的 AUC 提高了 67%。
《GLoMo: Unsupervisedly Learned Relational Graphs as Transferable Representations》,Zhilin Yang, Jake Zhao, Bhuwan Dhingra, Kaiming He, William W. Cohen, Ruslan Salakhutdinov, Yann LeCun
论文下载地址
https://arxiv.org/abs/1806.05662
本文提出了一种迁移学习的新方法。这种方法并没有迁移嵌入之类的一元特征,而为传输隐含关系图带来了可能性,这些图包含随基本嵌入消失的数据单元(像素、词…)之间的关联信息。
例如,对于一个问答问题,使用图生成器训练答案预测器,从问题输入预测答案。这个网络试图生成一个被注入到答案预测器的隐藏层中的好关联矩阵(这个矩阵包含关联信息但不包含输入的值)。答案预测器和图生成器同时进行训练。
一旦经过训练,该图形生成器就可以与执行不同任务(例如情绪分析)的模型一起使用,从而提高它们的性能。这种新方法提高了问答、情感分析、图像分类等问题的性能。
《Supervising Unsupervised Learning》,Vikas K. Garg, Adam Kalai
论文下载地址
https://arxiv.org/abs/1709.05262
无监督学习的一个主要问题是没有直接评估算法性能的方法。这使得选择某一种算法来调整超参数或评估性能,成为一件非常难的事。
这篇论文尝试使用元无监督学习(MUL)来解决这个问题,元无监督学习是一个经训练后可以基于数据集的特性决定使用哪个无监督模型的分类器。为此,就需要一组标记好的数据集。
例如,假设给定了一个问题,而我们没有任何有标记的数据,然后要在几种无监督的分类算法中挑选出一个,之后我们就找来许多有标签的数据集,把每一个算法都在它们上面运行,再算出分类成绩。然后,我们组合使用数据集特征(维度,特征值等)和分类器输出上的无监督度量(在集群内扩展等),训练出一个模型来预测最佳算法。该模型可用于为要解决的目标数据集选择算法。
这种方法似乎优于完全无监督的方法,即便在标记数据集与我们正在研究的数据集没有紧密关联的情况下,结果也是这样。
《Banach Wasserstein GAN》,Jonas Adler, Sebastian Lunz
论文下载地址
https://arxiv.org/abs/1806.06621
这篇论文介绍了 Banach Wasserstein 生成式对抗网络(BWGANs),它是对本身就改进自 GANs 的 Wasserstein GANs(WGANs)的扩展(这里 https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Fmedium.freecodecamp.org%2Fan-intuitive-introduction-to-generative-adversarial-networks-gans-7a2264a81394 有对 GAN 不错的介绍)。
对于基本的 GAN,假设判别器经过了完美的训练,生成的网络实际上最小化了生成图像分布和真实分布间的 Jenson-Shannon 距离(JSD,Kullback–Leibler 散度的对称形式)。但是 JSD 距离不适用于测量图像分布间的距离。
WGANs 则对损失进行了修改,从而最小化 Wasserstein 距离而不是 JSD 距离。为此,通过给损失函数添加一个梯度上的 L2 惩罚项,给网络增加了一个温和的 Lipschitz 约束。Wasserstein 距离的一个主要优点是,它可以应用于图像空间上的任意范数。
然而,由于损失上的惩罚项,WGAN 要求必须使用 L2 范数,因此失去了使用更适用于图像的范数的能力,例如,Sobolev 范数,它不仅强调像素,而且强调边缘。
本论文提出对惩罚项进行泛化,从而使得范数的选择不再仅限于 L2 范数。
作者们使用 W=[-1/2,2] 的 Sobolev 范数,它在 CIFAR-10 数据集上的表现超越了当前最好的结果。
这是一篇非常数学化的文章:它不仅包含详尽的证明(不仅仅是证明的概述),还回顾了诸如 Banach 空间和 Sobleev 空间此类的基本概念。
《Learning to Decompose and Disentangle Representations for Video Prediction》,Jun-Ting Hsieh, Bingbin Liu, De-An Huang, Li Fei-Fei, Juan Carlos Niebles
论文下载地址
https://arxiv.org/abs/1806.04166
视频预测是从先前的 T 帧预测图像接下来的 k 帧的任务。要解决视频预测问题,似乎就意味着能够理解世界是如何运作的。
更具体地说,理解一个物体的物理特性,比如绳子如何与金属棒表现不同,在我们的日常生活中是很自然的一件事,但是它却使视频预测成为一项复杂的任务。
视频具有高维度,并且是不规则的。这篇论文介绍了分解解耦的预测自动编码器(DDPAE),它能找到对视频中的目标进行描述的最轻便的方法。它假设每个视频都由多个目标组成,其中的每一个都可以使用内容向量(目标本身的常量描述符)和姿态向量(被检测到和预测的位置)来描述。
这个解决方案学习这样的描述并解析它的所有元素,同时还对 VAE、RNN 和 seq2seq 进行了结合。它的结果看起来非常有前景,因为他们超越了运动 MNIST 数据集的基准。
《Unsupervised Learning of Artistic Styles with Archetypal Style Analysis》,Daan Wynen, Cordelia Schmid, Julien Mairal
论文下载地址
https://hal.inria.fr/hal-01802131/file/archetypal_style.pdf
本论文为无监督学习和深度学习可解释性带来了一个新阶段。特别是,它用根样式解释和操作解决了样式学习的问题(如果你对这个问题不熟悉,这里 https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fartistic-style-transfer-b7566a216431 有对样式学习不错的介绍)。
其主要想法是将输入的图像投影到低维原型空间,在这个空间里每个基本原型都是可解释的。这样的话就可以:以无监督的方式将一些特征附加到图像中(例如,添加关于来自原型解释的纹理、样式、年龄等标签),同时操作每个样式上的系数来影响样式,并将样式转移到原始图像。
此外,采用双边方式的单形优化来将编码图像投影到原型上:将图像到其投影的距离最小化,同时强制让原型成为图像的线性组合。因而,这个原型易于解释。
最终,用基本样式元素描述任意图像,然后再学习一种样式词典成为可能。这种样式转移最后可以由原型空间中的系数进行精确地管理。
via:《NeurIPS (prev. NIPS) Papers Selection:My favorite research articles from NeurIPS (previously NIPS) 2018》, Félix(https://blog.sicara.com/nips-neurips-papers-selection-28efd4d73189)
点击阅读原文,查看 NeurIPS2018时间检验奖论文回顾