论文Express | 谷歌大脑：基于元学习的无监督学习更新规则

会员服务 ·

论文Express | 谷歌大脑：基于元学习的无监督学习更新规则

2018 年 5 月 3 日 大数据文摘 文摘菌

大数据文摘作品

编译：杨小咩是小怪兽、晓莉、小鱼

这期论文Express，让文摘菌带大家来看看谷歌大脑和伯克利关于无监督学习的联合研究。

大数据文摘后台对话框内回复“元学习”即可下载论文~

无监督学习的一个主要目的是为了获得对后续任务有用的数据分布，从而避免在有监督训练过程中需要对数据进行标注的繁琐步骤。

通常，这个目标是通过定义一个代价函数（Cost Function）来最小化估计参数的方式实现的，例如negative log-likelihood（NLL）生成模型。

论文作者：Luke Metz、Niru Maheswaranathan、Brian Cheung、Jascha Sohl-Dickstein（谷歌大脑/加州大学伯克利分校）

本文提出了基于元学习的无监督学习更新规则，利用元学习技术对无监督权重的更新规则进行学习，在针对小样本分类任务上表现良好。

此外，我们将无监督学习更新规则约束为一个生物机制的局部神经元函数，从而推演一种全新的神经网络结构。

基于元学习的无监督学习更新规则可概括为训练不同宽度，深度和非线性的网络。它还可以训练具有随机排列输入维度的数据，甚至还可以从相对复杂的图像数据集泛化到一个文本任务。

相关工作

下表中列出了已经在论文中发表的元学习方法，从选择不同的任务类型、元学习结构、元架构和域等方面进行了全面的比较。

已发表的元学习方法比较

模型设计

我们将参数为∅_t的多层感知机（MLP）f(·; ∅_t)作为基础模型，元学习过程的内部循环通过迭代应用学习优化器来训练模型，下图是模型结构示意。

模型结构

在标准的监督学习中，“学习”优化过程就是随机梯度下降(SGD)。有监督损失函数l (x, y)与这个模型相关，其中x是小样本输入，y是相对应的标签。通过使用梯度∂l(x,y)/ ∂φ_t执行SGD，迭代更新基础模型的参数φ_t至收敛。有监督更新规则可以被写成：

其中θ是优化器的参数（例如学习速率），我们称其为元参数（通常也叫做超参数）。

本文中的学习优化器是一个参数更新过程，它并不依赖于标签信息，

在传统的无监督学习算法中，专家知识或者一个简单的超参数搜索决定了θ，其中包括一些元参数，例如学习率和正则化常数。相比之下，我们的更新规则有更多数量级的元参数，例如神经网络的权重。我们在元目标上执行SGD来训练这些元参数，以便找到最佳参数θ∗，将一组训练任务的元目标最小化。

训练更新规则

近似梯度训练

考虑到θ的高维性质，本文通过截断BP算法评估∂[MetaObjective]/ ∂θ对参数θ进行优化，采样每次截断的步数和无监督训练步数的总数以限制由截断引入的潜在偏差。

梯度稳定训练

限制最大内环步长对于优化器的稳定性至关重要。如果不限制学习率，优化器的学习速度会迅速提高并进入混沌区域。

当使用学习优化器时，特别是在学习优化器的元训练的初期，学习优化器很容易在基础模型中产生高方差权重，批标准化（Batch Norm）通过增加权重空间可以解决上述问题。

元训练的分布与泛化

本文中学习优化器的泛化来自于无监督更新（UnsupervisedUpdate）的形式和元训练分布。此外对数据集和基础模型架构上的分布也进行了训练。

本文构建了一套由CIFAR10、来自ImageNet的子集的多类识别和一个由渲染字体组成的数据集组成的训练任务。

我们发现增加训练数据集的变化有助于优化过程。为了减少计算量，我们将输入数据大小限制为小于16x16像素，并相应地调整所有数据集的大小。

在预处理中，我们根据特征维度对所有输入进行转置，以便无监督更新能够学习到一个置换不变性学习规则。

为了增加数据集的变化，我们还通过移位，旋转和噪声来扩大数据集，并将这些增强系数作为元目标的附加回归目标，例如旋转图像并预测旋转角度以及图像类别。

实验结果

本文研究了现有的无监督学习和元学习方法的局限性，然后展示了我们提出的学习优化器的元训练（meta-training）和泛化特性，最后对学习优化器的运行原理进行说明。

目标函数失配

尽管变分自编码器（variational auto-encoder，VAE）分类准确率在一定范围内会随着训练步数的增加而提高，但在训练后期，其分类准确率会所下降。这种结果是由于目标函数失配引起的，例如下图中小样本分类结果。

半监督学习算法的失效模式

上图中，左图是目标函数失配曲线。右图是原型网络在随机输入下的分类准确率。

元优化（Meta-Optimization）

在训练过程中，通过平均所有数据集、模型结构和算法展开执行步骤，监测了元目标（meta-objective）的移动平均数，如下图所示。

训练和评估任务分布的训练曲线

上图中，经过200小时的训练后，训练损失在不断下降，表明近似的训练算法都可以进行有效的学习。为了获得全局参数，我们在多种训练集和测试集上运行了学习优化器，如右图所示。其中，像imagenet、MNIST和Fashion Mnist等数据集的评估损失都有所下降。在训练像IMDB等数据集，就出现了过拟合现象。因此，在200小时后的元训练中，我们用元参数θ进行无监督更新。

泛化

我们最先泛化的对象就是数据集。在下图中，通过在学习模型中嵌入了针对像素的后验分布的变分自编码器，并通过有监督学习比较了小样本分类（每一类有10个样本）的性能，如下图所示。