会员服务 ·

LeCun新作，一张卡就能训！方差正则，抛弃L1正则，稀疏编码器不再崩溃

2022 年 1 月 5 日 极市平台

↑ 点击蓝字关注极市平台

来源丨新智元

编辑丨极市平台

极市导读

最近LeCun又发新作，依然是崩溃问题，依然是自监督，这次提出了一个新的正则化方法：方差正则，可以有效防止编码崩溃，还能提升重构质量，一张显卡就能训！>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文：https://arxiv.org/abs/2112.09214

开源代码：https://github.com/kevtimova/deep-sparse

神经网络中有一类学习特别受研究人员的青睐，那就是自监督学习（self-supervised learning SSL）。

只要给足够多的数据，自监督学习能够在完全不需要人工标注的情况下，学习到文本、图像的表征，并且数据量越大、模型参数量越大，效果越好。

自监督学习的工作原理也很简单：例如应用场景是图片的话，我们可以把SSL模型的输入和输出都设置为同一张图片，中间加入一个隐藏层，然后开训！

一个最简单的自编码器AutoEncoder就弄好了。

通常来说隐藏层的神经元数量是要小于输入图片的，这样训练后，自编码器的中间隐藏层就可以作为图片的表征向量，因为训练过程的目标就是仅用该隐藏向量即可还原图片。

自编码器最初提出是基于降维的思想，但是当隐层节点比输入节点多时，自编码器就会失去自动学习样本特征的能力，此时就需要对隐藏层节点进行一定的约束。

稀疏自编码器应运而生，约束的出发点来自于：高维而稀疏的表达是好的。所以只需要对隐藏层节点进行稀疏性约束即可。

常用的稀疏编码方式当然是L1正则。

最近LeCun提出了一种新的稀疏编码协议可以防止编码的崩溃，而不需要对解码器进行正则化处理。新的编码协议直接对编码进行正则化，使每个潜码成分（latent code component）在一组给定的输入的稀疏表示上具有大于固定阈值的方差。

此外，研究人员还探索了如何利用多层解码器来有效训练稀疏编码系统的方法，可以比线性字典（linear dictionary）模拟更复杂的关系。

在对MNIST和自然图像块（natural image patch）的实验中，实验结果表明使用新方法学习到的解码器在线性和多层情况下都有可解释的特征。

与使用线性字典的自动编码器相比，使用方差正则化方法训练的具有多层解码器的稀疏自动编码器可以产生更高质量的重建，也表明方差正则化方法得到的稀疏表征在低数据量下的去噪和分类等下游任务中很有用。

论文中LeCun的作者单位也是从FAIR更名为Meta AI Research（MAIR）。

方差正则

给定一个输入y和一个固定的解码器D，研究人员使用FISTA算法（近似梯度方法ISTA的快速版）进行推理来找到一个稀疏编码z*，得到的z*可以使用D中的元素最好地重建输入y。

解码器D的权重是通过最小化输入y和从z∗计算出的重构y之间的平均平方误差（MSE）来训练得到的。

编码器E的权重则是通过预测FISTA的输出z∗得到。

为了防止潜码的L1正则崩溃，研究人员加入了一个限制条件，确保每个潜码方差大于预先设定的阈值。主要实现方法就是对能量函数加入一个正则化项，从而能够促使所有潜码分量的方差保持在预设的阈值以上。

更具体地说，研究人员修改了推理过程中的目标函数来最小化能量。

其中hinge项与L1惩罚项相抵消作为新的正则化项，新的方程可以鼓励每个潜伏代码成分的方差保持在的阈值以上，从而可以防止潜码的L1正则崩溃，进而无需对解码器权重进行正则化。

重构项求和之后的梯度和潜码z对应。

对于线性解码器来说，尽管hinge项不是光滑的凸函数，但梯度是一条线（line）意味着hinge项在局部表现得像一个凸二次函数。

训练过程中，研究人员将编码器E与解码器D同时训练来预测FISTA推理计算的稀疏编码。

同时训练的第一个原因是为了避免在解码器训练完成后使用批量统计来计算编码。事实上，应该可以为不同的输入独立地计算编码。

第二个原因是为了减少推理时间。编码器和解码器的训练完成后，编码器可以直接计算输入的稀疏表示，这样就不需要用FISTA进行推理，即编码器可以进行amoritized推理。

编码器的正则项可以促使FISTA找到可以被编码器学习到的编码。在实验设置中，编码器的预测通常被视为常数（constants），用作FIST编码的初始值。

如果编码器提供了一个好的初始值，则可以通过减少FISTA迭代的次数来减少推理时间。

实验设置

实验中的编码器为一个LISTA（Learned ISTA）编码器，它的设计是为了模仿ISTA推理的输出，类似于一个递归神经网络。编码器由两个全连接层，一个偏置项，以及ReLU激活函数组成。

线性解码器的参数简单地说是一个线性变换，将编码映射到输入数据的重构维度上，在线性变换中没有偏置项。

在非线性解码器的情况下，使用一个大小为m的隐藏层和大小为l的输入层（潜码的size）的全连接网络，使用ReLU作为隐藏层的激活函数。将输入代码映射到隐含表征的层中有一个偏置项，而将隐含表征映射到输出的层没有偏置项。

在推理过程中，编码z被限制为非负值。MNIST实验中潜码的维度为128，在ImageNet patch的实验中则是256，当batch size为250时，对于VDL中每个潜成分（latent component）的方差的正则化项来说是足够大的。

将FISTA的最大迭代次数K设置为200次，已经足以实现一个效果不错的重构模型了。

在自编码器训练中，研究人员设置MNIST的epoch为200，image patch则为100。在SDL和SDL-NL实验中，将解码器的全连接层W、W1和W2中的列的L2正则固定为1，并保存输出平均能量最低的自编码器。

研究人员还对SDL-NL和VDL-NL模型中的偏置项b1以及LISTA编码器中的偏置项b增加了权重衰减，以防止其正则化项无限膨胀。

模型的训练只需要一块NVIDIA RTX 8000 GPU卡，并且所有实验的运行时间都在24小时以内。

实验结果可以看到，对于两个SDL和两个VDL的字典元素（dictionary elements）来说，在稀疏度λ较低的情况下（0.001， 0.005）解码器似乎可以学到方向、笔划，甚至是是数字图形中的一部分。

随着λ值的提高，生成的图像也越来越像一个完整的数字，完成了从笔划到数字的演化。

在重构质量上，SDL和VDL模型的编码器的曲线显示了由未激活编码（值为0）成分的平均百分比衡量的稀疏程度和由平均PSNR衡量的重建质量之间的权衡。

在5个随机种子上的测试集所衡量的重建质量和预期相符，较高的稀疏度会导致更差的重建效果，但用文中提出的方差正则化方法训练出来的模型则会比SDL 模型在更高的稀疏程度下产生更好的重建效果，从而证实了方差正则化确实是有效的。

参考资料：https://arxiv.org/abs/2112.09214

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“transformer”获取最新Transformer综述论文下载～

极市干货

课程/比赛：珠港澳人工智能算法大赛｜保姆级零基础人工智能教程

算法trick ：目标检测比赛中的tricks集锦｜从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

技术综述：一文弄懂各种loss function ｜工业图像异常检测最新研究总结（2019-2020）

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

稀疏编码

关注 5

这种方法被称为Sparse Coding。通俗的说，就是将一个信号表示为一组基的线性组合，而且要求只需要较少的几个基就可以将信号表示出来

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

专知会员服务

17+阅读 · 2021年10月23日

【NeurIPS2021】利用判别掩蔽(DAM)学习神经网络的紧致表示

专知会员服务

16+阅读 · 2021年10月11日

Hinton，Lecun和Bengio三巨头联手再发万字长文：深度学习的昨天、今天和明天

专知会员服务

64+阅读 · 2021年7月2日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

Geoffrey Hinton最新SIGIR2020视频报告：下一代神经网络-无监督对比学习

专知会员服务

50+阅读 · 2020年7月27日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知会员服务

40+阅读 · 2020年3月31日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

53+阅读 · 2020年1月24日

CVPR 2022 | 继何恺明的MAE后，MSRA提出更简单的掩码图像建模框架

PaperWeekly

0+阅读 · 2022年4月18日

北大/港大/百度提出CAE：自监督学习新范式！用于SSL的上下文自动编码器

CVer

0+阅读 · 2022年2月21日

自监督学习新范式CAE：为什么 MIM 比对比学习更适合下游任务？

机器之心

0+阅读 · 2022年2月19日

浅谈LabelSmooth两种实现及推导

极市平台

0+阅读 · 2021年12月12日

图灵奖大佬 Lecun 发表对比学习新作，比 SimCLR 更好用！

夕小瑶的卖萌屋

0+阅读 · 2021年11月17日

深度学习Pytorch框架Tensor张量

极市平台

0+阅读 · 2021年11月1日

对比学习也会维度崩溃？LeCun和田渊栋团队新作，DirectCLR帮你解决各种崩溃！

新智元

0+阅读 · 2021年10月28日

【论文笔记】ICLR 2018 Wasserstein自编码器

专知

31+阅读 · 2018年6月29日

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

卷积神经网络(CNN)学习笔记1：基础入门

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月16日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于高维特征和稀疏子空间聚类的图像分割方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于L21范数的稀疏鉴别子空间学习

国家自然科学基金

0+阅读 · 2013年12月31日

大数据中的广义稀疏几何结构学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

图像视频的压缩采样与稀疏重建的协同优化方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

特征选择中的全局最优搜索策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

逼近和恢复的原子范数正则化方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于自适应压缩感知的地震信号稀疏表示与高效重构

国家自然科学基金

0+阅读 · 2012年12月31日

基于广义建模理论的多原子库图像编码方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

CobBO: Coordinate Backoff Bayesian Optimization with Two-Stage Kernels

Arxiv

0+阅读 · 2022年4月19日

Unsupervised detection of ash dieback disease (Hymenoscyphus fraxineus) using diffusion-based hyperspectral image clustering

Arxiv

0+阅读 · 2022年4月19日

Semi-Supervised Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Semi-Supervised AUC Optimization based on Positive-Unlabeled Learning

Arxiv

0+阅读 · 2022年4月11日

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection

Arxiv

13+阅读 · 2020年12月3日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

DPGN: Distribution Propagation Graph Network for Few-shot Learning

Arxiv

12+阅读 · 2020年3月31日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

VIP会员