我们定义了深度核过程,其中正定格拉姆矩阵由非线性核函数和(逆)Wishart分布的采样逐步变换。值得注意的是,我们发现深度高斯过程(DGPs),贝叶斯神经网络(BNNs),无限的BNNs和无限的有瓶颈的BNNs都可以写成深度核过程。对于DGPs,产生等价是因为由特征的内积形成的格拉姆矩阵是Wishart分布的,正如我们所示,标准的各向同性核完全可以用这个格拉姆矩阵来表示——我们不需要关于底层特征的知识。我们定义了一个可处理的深度核过程,即深度逆Wishart过程,并给出了一个双随机诱导点变分推理方案,该方案作用于Gram矩阵,而不是像DGPs中那样作用于特征。结果表明,在全连通基线上,深度逆Wishart过程的性能优于DGPs和无限BNN网络。

成为VIP会员查看完整内容
0
18

相关内容

高斯过程(Gaussian Process, GP)是概率论和数理统计中随机过程(stochastic process)的一种,是一系列服从正态分布的随机变量(random variable)在一指数集(index set)内的组合。 高斯过程中任意随机变量的线性组合都服从正态分布,每个有限维分布都是联合正态分布,且其本身在连续指数集上的概率密度函数即是所有随机变量的高斯测度,因此被视为联合正态分布的无限维广义延伸。高斯过程由其数学期望和协方差函数完全决定,并继承了正态分布的诸多性质

图匹配深度学习由于其优于传统方法的性能和为解决其他图上的组合问题提供的见解而成为一个重要的研究课题。虽然最近的通用深度方法广泛研究了有效的节点/边缘特征学习或给出这些学习特征的下游通用求解器,但很少有现有工作质疑固定连通性/拓扑是否通常使用启发式构建(例如,从学习的角度来看,我们认为固定的拓扑可能会限制模型的容量,从而潜在地阻碍性能。为了解决这个问题,我们提出学习潜在拓扑的分布,这样可以更好地支持下游GM任务。我们设计了两种潜在图生成程序,一个是确定性的,一个是生成的。特别地,生成过程强调跨图的一致性,因此可以看作是一个匹配引导的共生成模型。我们的方法在公共基准上的表现优于以往的先进水平,因此支持了我们的假设。

http://proceedings.mlr.press/v139/yu21d.html

成为VIP会员查看完整内容
0
11

最近解开深度学习中的隐式正则化之谜的努力促使了对矩阵分解的理论关注——通过线性神经网络的矩阵完成。作为对实际深度学习的进一步研究,我们首次对张量因子分解中的隐正则化进行了理论分析——通过某种非线性神经网络的张量补全。我们采用动力学系统的观点,规避了张量问题的困难,刻画了梯度下降引起的演化。给出了贪心低张量秩搜索的一种形式,在一定条件下给出了严格的证明,并在其他条件下给出了经验证明。基于张量秩捕获非线性神经网络隐含正则化的动机,我们将其作为复杂性的度量方法进行了实证研究,并发现它捕获了神经网络所泛化的数据集的本质。这使我们相信张量秩可以为解释深度学习中的隐正则化以及将这种隐正则化转换为泛化的真实数据的特性铺平道路。

成为VIP会员查看完整内容
0
10

用反向传播方法训练深度残差神经网络(ResNets)的记忆成本随网络深度的增加而线性增加。规避这个问题的一种方法是使用可逆的架构。本文提出通过增加动量项来改变ResNet的正向规则。所得到的网络,动量剩余神经网络(动量ResNets)是可逆的。与以前的可逆架构不同,它们可以作为任何现有的ResNet块的替代。我们证明动量ResNets可以被解释为二阶常微分方程(ode),并准确地描述了如何逐步增加动量增加动量ResNets的表示能力。我们的分析显示,Momentum ResNets可以学习任何线性映射到一个倍增因子,而ResNets不能。在优化设置的学习中,需要收敛到一个不动点,我们从理论上和经验上证明了我们的方法成功,而现有的可逆架构失败。我们在CIFAR和ImageNet上展示了Momentum ResNets与ResNets具有相同的精度,但占用的内存要小得多,并展示了预训练的Momentum ResNets对模型的微调是有前途的。

https://www.zhuanzhi.ai/paper/867b3834167694dab97cf812135dc273

成为VIP会员查看完整内容
0
21

在统一鲁棒半监督变分自编码器(URSVAE)中,通过同时处理噪声标签和异常值,提出了一种新的噪声鲁棒半监督深度生成模型。输入数据的不确定性通常是将不确定性优先于概率密度分布的参数,以确保变分编码器对异常值的鲁棒性。随后,我们将噪声转换模型自然地集成到我们的模型中,以减轻噪声标签的有害影响。此外,为了进一步增强鲁棒性,采用鲁棒散度测度,推导并优化了新的变分下界来推断网络参数。通过证明对所提证据下界的影响函数是有界的,证明了所提模型在存在复合噪声的情况下在分类方面的巨大潜力。通过对图像分类任务的评价和与现有方法的比较,实验结果表明了该框架的优越性。

http://proceedings.mlr.press/v139/chen21a.html

成为VIP会员查看完整内容
0
19

我们提出并分析了一种基于动量的梯度方法,用于训练具有指数尾损失(例如,指数或logistic损失)的线性分类器,它以O (1/t2)的速率最大化可分离数据的分类边缘。这与标准梯度下降的速率O(1/log(t))和标准化梯度下降的速率O(1/t)形成对比。这种基于动量的方法是通过最大边际问题的凸对偶,特别是通过将Nesterov加速度应用于这种对偶,从而在原函数中得到了一种简单而直观的方法。这种对偶观点也可以用来推导随机变量,通过对偶变量进行自适应非均匀抽样。

https://www.zhuanzhi.ai/paper/9fd848dc95d2b0a9a5da37dbbd79d4ed

成为VIP会员查看完整内容
0
6

残差网络(ResNets)在模式识别方面显示了令人印象深刻的结果,最近,由于与神经常微分方程(neural ODEs)的感知联系,获得了相当大的理论兴趣。随着层数的增加,这条链路依赖于网络权值的收敛到平滑的函数。我们通过详细的数值实验研究了随机梯度下降训练权值的性质,以及它们随网络深度的变换。我们观察到有明显不同于神经ODE文献中假设的标度区存在。根据网络结构的某些特征,如激活函数的光滑性,人们可以得到另一个ODE极限,一个随机微分方程或两者都不能。这些发现对神经ODE模型作为深度ResNets的充分渐近描述的有效性提出了质疑,并指出了另一类微分方程作为深度网络极限的更好描述。

https://www.zhuanzhi.ai/paper/74bb9f3249e109282560f46658d244eb

成为VIP会员查看完整内容
0
13

Yang (2020a)最近指出,神经切线核(NTK)在初始化时具有无限宽的限制,适用于许多架构,包括现代的主要架构,如ResNet和Transformer。然而,他们的分析并不适用于训练。在这里,我们展示了同样的神经网络(在所谓的NTK参数化中)在训练过程中遵循函数空间中的核梯度下降动力学,其中核是无限宽NTK。这就完成了NTK行为体系结构通用性的证明。为了得到这个结果,我们运用张量程序技术:在一个张量程序中编写整个SGD动态,并通过主定理分析它。为了便于证明,我们开发了一个张量程序的图形符号。

成为VIP会员查看完整内容
0
9

后验贝叶斯神经网络(BNN)参数是非常高维和非凸的。出于计算上的原因,研究人员使用廉价的小批量方法来近似这种后变方法,如平均场变分推断或随机梯度马尔科夫链蒙特卡罗(SGMCMC)。为了研究贝叶斯深度学习中的基础问题,我们在现代体系结构中使用全批量哈密顿蒙特卡罗(HMC)。我们证明: (1)与标准训练和深度集成相比,BNNs可以获得显著的性能增益; (2)单一的HMC长链可以提供多个较短链后验的可比性表示;(3)与最近的研究相比,我们发现不需要后验回火来获得接近最佳的性能,几乎没有证据表明存在“冷后验”效应,这主要是数据增强的人为影响;(4) BMA对先验尺度的选择具有较强的鲁棒性,对对角高斯、混合高斯和logistic先验的选择具有较强的相似性;(5)贝叶斯神经网络在域移下泛化性能差;(6)虽然深度集成和SGMCMC等廉价方法可以提供良好的泛化,但它们提供的预测分布与HMC不同。值得注意的是,深度集成预测分布与标准SGLD的HMC相似,比标准变分推断更接近。

https://www.zhuanzhi.ai/paper/175b8f7c93633d4479ce659fce81c737

成为VIP会员查看完整内容
0
22

视频的传输占据了互联网75%以上的带宽,而COVID-19疫情更加突显了视频会议和视频直播等任务对于图像/视频压缩技术的需求。传统的视频编码标准正在被基于学习的压缩方法不断追赶,具体到图像压缩领域,最新的端到端的图像压缩神经网络率失真性能已经超过了H.266帧内编码,并且在主观性能上远远好于传统的图像压缩算法。

在端到端的压缩框架中,需要在隐藏层对近乎连续的数据进行离散化,所以量化(Quantization)操作是图像/视频压缩网络中一个非常重要的组成部分。但是量化函数的导数几乎处处为0,要想端到端的优化一个图像压缩网络,必须要对量化操作进行近似使其可以有效进行梯度回传。之前对量化层的处理方法大体上可以分为三类,加性均值噪声代替量化(additive uniform noise),直接梯度回传(straight-through estimator),以及从软到硬的退火方法(soft-to-hard annealing)。我们在本文中首先对这三种方法进行了详细分析,最终发现这三种方法会遇到不同的问题,从不同的角度影响了图像压缩网络的性能。我们进而提出了一种全新的两阶段量化策略,解决了这些问题。在本文中,我们还通过推导率失真损失函数的新的近似公式,使得压缩网络在量化的时候可以有效学习得到灵活的量化步长,进而进行空域码率分配。实验证明我们提出的两阶段量化策略以及自适应产生量化步长的方法,通过很少的额外参数有效提升了压缩性能,在复杂模型上的训练也很稳定,并且有望拓展到视频压缩方案中。

https://arxiv.org/abs/2104.05168

成为VIP会员查看完整内容
0
12

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

为了将深度学习模型部署到生产中,它需要准确和紧凑,以满足延迟和内存的限制。这通常会导致网络的深度(以确保性能)和瘦(以提高计算效率)。本文提出了一种在理论保证下训练深薄网络的有效方法。我们的方法是由模型压缩驱动的。它由三个阶段组成。在第一阶段,我们充分拓宽深薄网络,并训练它直到收敛。在第二阶段,我们使用这个训练良好的深宽网络来预热(或初始化)原始的深薄网络。这是通过让瘦网络从层到层模拟宽网络的直接输出来实现的。在最后一个阶段,我们进一步优化这个初始化良好的深薄网络。通过平均场分析,建立了理论保证,表明了分层模拟比传统的反向传播从头开始训练深薄网络的优越性。我们还进行了大规模的实证实验来验证我们的方法。通过使用我们的方法进行训练,ResNet50可以超过ResNet101, BERTBASE可以与BERTLARGE相媲美,后者的模型都是通过文献中的标准训练程序进行训练的。

成为VIP会员查看完整内容
0
28
小贴士
相关VIP内容
专知会员服务
11+阅读 · 9月22日
专知会员服务
10+阅读 · 8月24日
专知会员服务
21+阅读 · 7月19日
专知会员服务
19+阅读 · 7月11日
专知会员服务
6+阅读 · 7月4日
专知会员服务
13+阅读 · 5月30日
专知会员服务
12+阅读 · 5月12日
专知会员服务
28+阅读 · 2020年7月5日
相关论文
Joint Normality Test Via Two-Dimensional Projection
Sara Elbouch,Olivier Michel,Pierre Comon
0+阅读 · 10月8日
Akshay Mehra,Jihun Hamm
0+阅读 · 10月5日
Message Passing for Complex Question Answering over Knowledge Graphs
Svitlana Vakulenko,Javier David Fernandez Garcia,Axel Polleres,Maarten de Rijke,Michael Cochez
6+阅读 · 2019年8月19日
Combination of Multiple Global Descriptors for Image Retrieval
HeeJae Jun,ByungSoo Ko,Youngjoon Kim,Insik Kim,Jongtack Kim
3+阅读 · 2019年4月18日
Yi Tay,Luu Anh Tuan,Siu Cheung Hui
3+阅读 · 2018年6月3日
Zheng Zhang,Qin Zou,Qian Wang,Yuewei Lin,Qingquan Li
5+阅读 · 2018年3月19日
Arthur Mensch,Mathieu Blondel
55+阅读 · 2018年2月20日
Yu Wu,Wei Wu,Dejian Yang,Can Xu,Zhoujun Li,Ming Zhou
5+阅读 · 2017年11月30日
Kaisheng Yao,Trevor Cohn,Katerina Vylomova,Kevin Duh,Chris Dyer
4+阅读 · 2015年8月25日
Top