NIPS2018 | 腾讯AI Lab入选20篇论文，含2篇Spotlight

会员服务 ·

NIPS2018 | 腾讯AI Lab入选20篇论文，含2篇Spotlight

2018 年 10 月 15 日 AI100

参加 2018 AI开发者大会，请点击 ↑↑↑

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单，此次为第32届会议，将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

腾讯AI Lab第三次参加NIPS，共有20篇论文入选，其中2篇被选为亮点论文（Spotlight），涵盖迁移学习、模仿学习、半监督学习等多个研究主题，去年我们入选论文8篇，含1篇口头报告（Oral）。

我们将在下文一一解析本次腾讯AI Lab入选论文，也邀请大家在NIPS的现场跟我们进一步交流与讨论。

1.一种自适应于不同环境、不同任务的强化学习方法

Synthesize Policies for Transfer and Adaptation across Environments and Tasks

这项研究由腾讯 AI Lab 和南加州大学合作主导完成，是本届 NIPS 的 Spotlight 论文之一，研究了同时在不同环境（Env）和不同任务（Task）之间迁移的问题，目的是利用稀疏的（Env, Task）组合就能学到在所有可能组合中迁移的能力。文中提出了一种新颖的部件神经网络，它描述了如何从环境和任务来组成强化学习策略的元规则。值得注意的是，这里的主要挑战之一是环境和任务的特征描述必须与元规则一起学习。为此，研究者又进一步提出了新的训练方法来解锁这两种学习任务，使得最终的特征描述不仅成为环境和任务的独特签名，更成为组建策略的有效模块。研究者在GRIDWORLD和AI2-THOR上进行了大量实验，结果表明新提出的模型可以有效地在 400 个（Env, Task）组合之间成功迁移，而模型的训练只需要这些组合的大概40%。

2. SPIDER：一种基于随机路径积分的差分估计子的邻近最优的非凸优化方法SPIDER

Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

这项研究由北京大学与腾讯 AI Lab 合作完成，探索了一种用于快速随机求解非凸优化问题的方法，同时也是本届 NIPS 的 Spotlight 论文之一。论文中提出了一种名为“随机路径积分的差分估计子（SPIDER）”的新技术，能以更低的计算复杂度追踪许多我们感兴趣的量。研究者还进一步将 SPIDER 与归一化的梯度下降方法结合到了一起，提出了用于求解非凸随机优化问题（仅需使用随机梯度）的两个算法：SPIDER-SFO和SPIDER-SSO。这两个算法具有很快的收敛速度。特别值得一提的是，SPIDER-SFO 和 SPIDER-SSO 能够以的随机梯度复杂度分别解出一个满足 ε 误差的一阶稳定点和满足误差的二阶稳定点。除此之外，对于有限和并满足梯度利普希茨连续的函数族，SPIDER-SFO 在获取一阶稳定点时几乎达到了算法下界。

SPIDER-SFO

SPIDER-SSO

3. 基于分批历史数据的指数加权模仿学习方法

Exponentially Weighted Imitation Learning for Batched Historical Data

这项研究由腾讯 AI Lab 独立完成，主要研究了仅使用成批量的历史数据的深度策略学习。这篇文章中我们主要考虑的是只使用历史数据的深度策略学习。这个问题的主要挑战在于，与大部分强化学习问题不同，我们不再有一个环境的模拟器来进行学习。为了解决这个问题，研究者提出一个单调优势加权的模仿学习算法来从历史数据中学习，并且可以应用到复杂非线性函数近似以及混合动作空间的问题中。这个方法并不依赖用来生成数据的行为策略的知识，所以可以被用来从一个未知的策略生成的数据中进行学习。在一些条件下，该算法（尽管非常简单）可以证明策略提升的下界，并且在实验中的效果超过了其它方法，并有望为复杂游戏 AI 提供更好的模仿学习。论文中也提供了详尽的数值实验来展示所提出的算法的有效性。

4. 基于适应性采样的快速图表示学习

Adaptive Sampling Towards Fast Graph Representation Learning

论文地址：https://arxiv.org/abs/1809.05343

这项研究由腾讯 AI Lab 独立完成，提出了一种适用于大规模社交网络的节点分类方法。社交网络可表示成图（graph）的形式，而图卷积网络已经成为了图节点表示学习的一种重要工具。在大规模图上使用图卷积网络会产生巨大的时间和空间开销，这主要是由无限制的邻居扩张引起的。在这篇论文中，研究者设计了一种适应性的逐层采样方法，可加速图卷积网络的训练。通过自上而下地构建神经网络的每一层，基于顶层的节点采样出下层的节点，可使得采样出的邻居节点被不同的父节点所共享并且便于限制每层的节点个数来避免过扩张。更重要的是，新提出的采样方法能显式地减少采样方差，因此能强化该方法的训练。研究者还进一步提出了一种新颖且经济的跳（skip）连接方法，可用于加强相隔比较远的节点之间的信息传播。研究者在几个公开的数据集上进行了大量实验，结果表明我们方法是有效的而且能很快收敛。

5. 具有非对称损益重尾特性的金融收益序列低维简约分位数回归

Parsimonious Quantile Regression of Financial Asset Tail Dynamics via Sequential Learning

这项研究由腾讯 AI Lab 主导，与香港城市大学、香港中文大学合作完成。文中提出了一种低维简约分位数回归框架来学习金融资产收益的动态尾部行为。该方法由数据驱动, 即能广泛的表征金融时间序列的在损益两端的重尾不对称性，又能很好地抓住条件分位数函数的时变特性。该方法将序列神经网络模型 LSTM 的优势与一种新构建的用来表示资产价格条件收益的参数化分位数函数结合到了一起。研究者在长达68年（1950-2018）的历史数据中, 对股票，债券，外汇三大类14种资产的研究表明，该方法的重要特点是能半参数的提取可能存在于数据中的条件分位函数的非线性演化过程。该机制对于抓住那些能驱动高阶矩时变演化而又独立于波动率的因子非常关键。对比表明新提出的模型的外样本预测表现优于 GARCH 模型族。与此同时该方法既不会导致分位数交叉，也没有参数化概率密度函数方法的不适定性问题。应用方面，该方法可用于对金融二级市场（包括股票、外汇、债券、大宗商品等）的波动率预测和尾部风险预测，能在金融机构的风险管理中发挥重要价值。

6.非局部神经网络、非局部扩散与非局部建模

Nonlocal Neural Networks, Nonlocal Diffusion and Nonlocal Modeling

论文地址：https://arxiv.org/abs/1806.00681

这项研究由腾讯 AI Lab主导，与美国哥伦比亚大学合作完成。在这篇论文中，研究者对经过良好训练的网络的权重矩阵进行了谱分析，从而探索理解了非局部网络的扩散和抑制效应的本质，并基于此提出了一种新的非局部模块的构建方法。这种新模块不仅能学习非局部的交互，而且还有稳定的动态特性，因此支持更深度的非局部结构——从而可以堆叠更多非局部模块以充分利用其优势。此外，研究者还从通用型非局部建模的角度对这种构建方法进行了分析，将新提出的非局部网络与非局部扩散过程与非局部马尔可夫跳变过程等其它非局部模型联系到了一起。非局部运算与卷积和循环模块不同，可以通过直接计算特征空间中每对位置之间的交互来实现长程依赖。这项研究对图像或视频分类、文本摘要和金融市场分析等诸多实际机器学习问题有重要的指导意义。

7.弱监督下对视频进行稠密事件标注

Weakly Supervised Dense Event Captioning in Videos

这项研究由腾讯 AI Lab 与清华大学、麻省理工学院（MIT）和微软亚洲研究院（MSRA）合作完成。提出了一种使用弱监督方式标注视频中的稠密事件的方法，从而能够缓解模型训练对成本高昂的人工标注数据的需求。这种方法不再需要每个事件的发生时间区间来进行模型训练，而是基于一一对应假设，即每个时间区间只有一个语言描述，而每个语言描述只对应于一个时间区间。一一对应假设在当前公开任务和真实场景中都成立。基于此，研究者将原问题分解为了一对对偶问题：事件描述和语句定位，并提出了一个用于训练模型的循环系统。研究者进行了大量实验，结果表明该方法能同时解决视频中的稠密事件标注和语句定位这两个任务。

新提出的模型结构及其训练连接如上图所示。该模型由一个语句定位器和一个描述生成器组成。在训练过程中，模型可使用视频及其所有的事件描述。首先语句定位器会使用视频和其中一个事件描述来获得一个时间片段预测，然后描述生成器会使用这个时间片段来生成一个描述语句。

8. 基于可配置熵约束的半监督学习

Semi-Supervised Learning with Declaratively Specified Entropy Constraints

论文地址：https://arxiv.org/abs/1804.09238

这项研究由卡耐基梅隆大学（CMU）与腾讯 AI Lab 合作完成，提出了一种新的声明式列举规则的半监督学习的方法，可用于定制化半监督学习。这种方法可以组合多个半监督学习策略，同时可以结合多个协议（agreement）约束和熵正则化（entropic regularization）约束。此外，这种方法还可以用于模拟其它常见的模型，比如联合训练和针对全新域的启发式方法。除了表征单个的半监督学习启发式方法，研究者还表明可以使用贝叶斯优化将多种启发式方法组合到一起。在多个数据集上的实验结果表明这种方法能稳定地优于其它方法，并在一个较困难的关系抽取任务上得到了当前最佳的结果。

声明式地描述半监督学习规则

9. 基于广义低秩近似的深度非盲反卷积

Deep Non-Blind Deconvolution via Generalized Low-Rank Approximation

这项研究由腾讯 AI Lab、中科院信工所、南京理工大学和美国加州大学默塞德分校等合作完成。本文提出了一种基于伪逆模糊核低秩特征的深度非盲反卷积方法，可以处理不同模糊核造成的模糊图片，尤其是对具有饱和像素的模糊图片有更好的效果。

研究者首先对大量模糊核进行广义低秩分解，利用分解得到的左右特征值向量对网络参数进行初始化，从而使网络更好的模拟伪逆模糊核。另外，基于广义低秩近似的分解矩阵可以有效区分不同伪逆模糊核的变化特征，因此可以帮助网络更好的进行图像恢复。研究者在大量具有饱和像素的模糊图片上进行了实验，结果证明该方法可以得到较好的图像反卷积效果。据介绍，该方法可以应用于相机、车载记录仪、监控等设备在已知运动轨迹情况下的图像复原。

新提出的去卷积网络的架构，其中通过广义低秩近（GLRA）使用大量模糊核（blur kernel）的可分离过滤器来初始化第 1 层和第 3 层的参数，并使用为每个模糊核估计的 M 来固定第 2 个卷积核中的参数。另外还堆叠了额外的 3 个卷积层来去除伪影。

10. 超越二次指派模型：图匹配形式化的一个推广

Generalizing Graph Matching beyond Quadratic Assignment Model

这项研究由腾讯 AI Lab、上海交通大学、美国亚利桑那州立大学等合作完成。图匹配在过去几十年间一直受到持续观注，该问题往往可以被形式化成一个二阶指派问题。研究者在本文中展示：通过引入一系列在本文中被称为可分离的函数，并调整近似控制参数，可以在连续域中对离散的图匹配问题进行渐进的近似。

研究者对该近似模型的全局最优解性质进行了研究，并进一步设计了凸/凹性质保持下的扩展算法，而该类似策略在传统Lawler二次指派模型上亦被广泛采用。从理论上，研究者进一步论证了所提出的框架在为图匹配新算法与技术设计带来的巨大潜力。最后，通过两个具体的可分离函数形式，研究者设计了相关求解算法，并在公开数据集上进行了验证。

11. 基于蒸馏 Wasserstein 学习的单词嵌入与主题建模

Distilled Wasserstein Learning for Word Embedding and Topic Modeling

论文地址：https://arxiv.org/abs/1809.04705

这项研究由InfiniaML, Inc.和美国杜克大学主导，与腾讯AI Lab合作完成。本文提出了一种具有蒸馏机制的Wasserstein学习方法，实现了单词嵌入与文本主题的联合学习。该方法的依据在于不同主题单词分布的Wasserstein距离往往是建立在单词嵌入的欧式距离的基础之上的。因此，该方法采用了一个统一的框架用以学习主题模型对应的单词分布，单词分布之间的最优传输，以及相应的单词嵌入模型。

在学习主题模型时，研究者利用模型蒸馏的方法平滑距离矩阵，用以更新主题模型和计算主题之间的最优传输。这种蒸馏机制为下一步单词嵌入的更新提供了具有鲁棒性的指导，改进了学习过程的收敛性。针对采用疾病和手术ICD编码的病人入院记录，研究者的方法在构建疾病相关性网络，死亡率预测，和治疗方案推荐等应用上取得了比现有方法更好的结果。

用于单词嵌入和主题建模的联合学习的蒸馏 Wasserstein 学习（DWL）方法

12.基于往复式学习的深度显著性跟踪

Deep Attentive Tracking via Reciprocative Learning

论文地址：https://arxiv.org/abs/1810.03851

这项研究由腾讯 AI Lab、北京邮电大学、澳洲阿德莱德大学和美国加州大学默塞德分校合作完成。由感知神经科学衍生出来的视觉关注度促使人类对日常信息中最敏感的部分进行仔细关注。近年来，大量的研究工作致力于在计算机视觉系统中挖掘显著性的信息。在视觉跟踪这个任务中，跟踪不断变化的目标物体是非常具有挑战性的。显著性响应图能够使得跟踪器关注于目标物体在时间域中稳定的特征，从而能够减轻视觉跟踪的困难。在现有的基于检测的跟踪框架中，分类器并没有进行显著性的设计，使得其主要利用额外的模块来生成特征权重。

本文中，研究者提出一种往复式学习的算法在训练分类器的过程中挖掘显著性，该算法通过前向和后向两部分操作来生成显著性响应图。在训练过程中，响应图作为正则项结合传统的分类损失函数进行网络的训练。以此方式训练的分类器能够关注于目标物体中克服外表变化的特征。在大规模数据集上大量的实验表明，研究者提出的基于显著性的跟踪方法在目前主流的跟踪算法中性能优异。

上图展示了新提出的往复式学习算法总览。该算法会首先在前向过程中计算给定训练样本的分类分数，然后在后向过程中通过取该分类分数相对该样本的偏导数来得到显著性响应图。之后再将这个响应图作为正则化项与分类损失结合起来用于训练分类器。测试阶段不会生成响应图，而是由分类器直接预测目标位置。

13. 基于学习的多任务学习框架L2MT

Learning to Multitask

论文地址：https://arxiv.org/abs/1805.07541

这项研究由香港科技大学与腾讯 AI Lab 合作完成，提出了学会多任务学习（L2MT）的框架，能够自动发掘对于一个多任务问题最优的多任务学习模型。为了实现这个目标，L2MT 充分利用了历史的多任务学习经验。每个多任务学习经验是一个三元组，包括一个由多个任务组成的多任务问题、一个多任务学习模型以及该模型在该多任务问题上的相对测试错误率。以历史的多任务学习经验作为训练集，L2MT 首先使用层式图神经网络（layerwise graph neural network）学习每个多任务问题里所有任务的特征表示。其次，L2MT 会学习一个估计函数来预测相对测试错误率，该估计函数基于多任务问题的特征表示以及多任务学习模型。如此一来，给定一个新的多任务问题，通过最小化该估计函数（等价于最小化相对测试错误率）可以确定一个合适的多任务模型。在标准数据集上的实验证明了 L2MT 的有效性。

上图展示了 L2MT 的框架，该框架包含 2 个阶段。训练阶段是学习一个估计函数 f(·,·) ，以基于训练数据集和特定的多任务模型来近似相对测试误差；测试阶段则是通过最小化该相对测试误差（接近随 Ω 变化的 γ1f(E˜ , Ω)）来学习任务协方差矩阵。

14.可判别式深度神经网络通道剪枝

Discrimination-aware Channel Pruning for Deep Neural Networks

这项研究由腾讯 AI Lab、华南理工大学和阿德莱德大学合作完成，对通道剪枝方法进行了改进。通道剪枝是深度模型压缩的一个主要方法。现有的剪枝方法要么通过对通道强加稀疏约束从头训练，要么极小化预训练特征和压缩后特征之间的重构误差。这两个策略都存在不足：前者计算量大并且难以收敛，后者只关注重构误差而忽略了通道的判别能力。

为了克服这些不足，研究者设计了一种简单而有效的方法——可判别式通道剪枝——来选择那些真正具有判别能力的通道。为此，研究者引入了额外的损失来增加神经网络中间层的判别能力。之后再从每一层中选择判别能力最强的通道，同时还会考虑这个新的额外损失和重构误差。最后，研究者还提出了一个贪心算法，可用于迭代地进行通道选择和参数优化。研究者进行了大量实验，结果表明该方法是有效的。例如，在 ILSVRC-12 数据集上，在对 ResNet-50 压缩 30% 的通道量后还取得了比原方法高 0.39% 的识别准确度。

可判别式通道剪枝（DCP）示意图

15. M-Walk: 图游走的蒙特卡洛树状搜索学习方法

M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

论文地址：https://arxiv.org/abs/1802.04394

这项研究由微软研究院与腾讯 AI Lab 合作完成，提出了一种可用于知识图谱推理的蒙特卡洛树状搜索学习方法 M-Walk。在知识库完成等应用中，给定一个输入查询和一个源节点，学习在图中到达目标节点是一个很重要的研究问题。这个问题可通过一个已知的状态转移模型而形式化为一个强化学习问题。

为了克服奖励稀疏的难题，研究者开发出了一种能在图中游走的智能体 M-Walk——由一个深度循环神经网络（RNN）和蒙特卡洛树搜索（MCTS）构成。RNN 会对状态（即游走过的路径的历史）进行编码，并将其分别映射成一个策略、一个状态值和状态-动作 Q 值。为了能使用稀疏奖励有效地训练该智能体，研究者将 MCTS 与这个神经网络策略结合到了一起，可以生成能产生更多积极奖励的轨迹。通过 Q 学习方法（其会通过参数共享来修改 RNN 策略），神经网络能使用这些轨迹以一种离策略的方式得到改进。研究者提出的强化学习算法可以反复应用这一策略改进步骤，从而学习得到整个模型。

在测试时间，MCTS 仍然会与神经策略结合起来预测目标节点。研究者在多个图游走基准上进行了实验，结果表明 M-Walk 能够学会比其它基于强化学习的方法（主要基于策略梯度）更好的策略。M-Walk 的表现也优于传统的知识库完成基准。

M-Walk 的神经架构

16.基于优化嵌入的耦合变分贝叶斯方法

Coupled Variational Bayes via Optimization Embedding

这项研究由乔治亚理工学院、伊利诺伊大学厄巴纳-香槟分校、腾讯 AI Lab 和微软研究院合作完成，文中构建了一种名为优化嵌入（optimization embedding）的分布类，能辅助实现优良的近似能力和计算效率，进而让变分推理在学习图模型方面的表现更好（尤其是在大规模数据集上）。优化嵌入这个灵活的函数类能将变分分布和图模型中的原始参数耦合到一起，能够通过反向传播使用变分分布来实现端到端的图模型学习。研究者还在理论上将其与梯度流（gradient flow）联系到了一起，并在极限意义上表明了这种隐式分布族极其灵活。

在实践中，这种技术能大幅缩小搜索空间，从而显著加速学习过程，即文中提出的耦合变分贝叶斯（CVB）。实验表明，新提出的方法在多种图模型（具有连续或离散的隐变量）上都优于之前最佳的方法。研究者相信优化嵌入是一种重要的通用型技术，未来也有望在生成对抗模型和对抗训练等其它模型中得到应用。

耦合变分贝叶斯算法

17. 常数迭代复杂度的随机经验误差最小化方法

Stochastic Primal-Dual Method for Empirical Risk Minimization with O(1) Per-Iteration Complexity

这项研究由香港中文大学、腾讯 AI Lab、加州大学戴维斯分校与罗切斯特大学合作完成，提出了一种可用于快速求解基于广义线性模型的经验误差最小化问题的方法。该方法的特点是每轮迭代只需要 O(1) 的常数计算量，与问题的维度以及数据的大小无关。研究者还发展了该方法的一种方差减小的变种，在强凸条件下可以证明它具有线性收敛性。研究者使用 logistic 损失函数进行了求解分类问题的数值实验，结果表明新方法在高维问题上的收敛速度优于 SGD、SVRG、SAGA 等经典算法。

每次迭代成本为 O(1) 的随机原始-对偶方法（SPD1）

使用了方差缩减的 SPD1

18. 方差缩减的随机期望最大化算法

Stochastic Expectation Maximization with Variance Reduction

论文地址：https://ml.cs.tsinghua.edu.cn/~jianfei/semvr-nips2018.pdf

这项研究由清华大学主导完成，腾讯 AI Lab 和牛津大学也有参与。论文提出了一个受方差缩减的随机梯度下降算法启发的基于方差缩减的随机 EM（sEM-vr）算法。研究表明 sEM-vr 具备和批 EM 相同的指数收敛速率，且sEM-vr 只需要常数步长，从而能降低调参的负担。研究者在高斯混合模型和 PLSA 上比较了 sEM-vr 和批处理 EM、随机 EM 及其它算法，结果表明 sEM-vr 比其它算法收敛明显更快。该方法在对训练精度要求较高时能显著提升随机 EM 算法的收敛速度。

19. 通信有效分布式优化的稀疏梯度方法

Gradient Sparsification for Communication-Efficient Distributed Optimization

论文地址：https://arxiv.org/abs/1710.09854

这项研究由宾夕法尼亚大学、腾讯 AI Lab、芝加哥大学与罗切斯特大学合作完成，提出了一种可用于提高大规模分布式机器学习模型训练的通信速度的方法。现代大规模机器学习一般使用分布式环境下的随机优化算法，传播梯度的通信成本是其中一大重要瓶颈。为了降低通信成本，研究者提出了一种基于凸优化的方法来减小编码长度，并使用了一些简单快速的近似算法来有效求解最优的稀疏化方法，该方法能提供基于稀疏程度的理论保证。另外，研究者也在 L2 正则化 logistic 回归、支持向量机和卷积神经网络等凸模型和非凸模型上验证对新提出的算法进行了验证。

20. 去中心化的压缩算法

Decentralization Meets Quantization

论文地址：https://arxiv.org/abs/1803.06443

这项研究由罗彻斯特大学、苏黎世联邦理工学院与腾讯 AI Lab 合作完成，提出了两种适用于去中心化网络的压缩方法（外推压缩和差异压缩）。对于大规模并行计算，去中心化的网络设计和传输信息的压缩对于解决网络延时十分有效。然而，与中心化的并行计算不同，理论分析表明，直接将去中心化网络与压缩算法结合将会造成训练结果不收敛。研究者为解决该问题而提出的两种压缩方法能达到与中心化压缩算法相同的运算效率。研究者也实验了这两种算法，结果表明它们大幅优于只用去中心化网络或只用压缩的算法。