1 引言

深度学习已被广泛应用到涉及图像、视频、语音等的诸多任务中并取得巨大成功。如 果我们问“深度学习是什么?”很可能会得到这样的回答:“深度学习就是深度神经网 络”。至少在目前,当“深度学习”作为一个术语时几乎就是“深度神经网络”的同义词, 而当它指向一个技术领域时则如 SIAM News 头版文章所称[1],是“机器学习中使用深度 神经网络的子领域”。关于深度学习有很多问题还不清楚。例如深度神经网络为什么要“深”?它成功背 后的关键因素是什么?深度学习只能是深度神经网络吗?本文将分享一些我们关于深度 学习的粗浅思考。

2 深度神经网络

神经网络并不是“新生事物”,它已经被研究了半个多世纪[2]。传统神经网络通常包 含一个或两个隐层,其中每个“神经元”是非常简单的计算单元。如图 1 所示,神经元 接收来自其他神经元的输入信号,这些信号通过连接权放大,到达神经元之后如果其总 量超过某个阈值,则当前神经元就被“激活”并向外传递其输出信号。实际上每个神经 元就是图 1 中非常简单的计算式,而所谓神经网络就是很多这样的计算式通过嵌套迭代 得到的一个数学系统。

今天的“深度神经网络”是指什么?简单来说,就是有很多隐层的神经网络。例如 2012 年在计算机视觉领域著名的 ImageNet 竞赛夺冠的网络用了 8 层、2015 年是 152 层、 2016 年是 1207 层……这样的网络明显是非常庞大的计算系统,包含了大量参数需要通 过训练来确定。但有一个好消息:神经网络的基本计算单元是连续可微的。例如以往常 用图 2 左边的 Sigmoid 函数作为神经元模型的激活函数,它是连续可微的;现在深度神 经网络里常用图 2 右边这样的 ReLU 激活函数,它也是连续可微的。于是,在整个系统 中可以相对容易地计算出“梯度”,进而就能使用著名的 BP 算法通过梯度下降优化来对 神经网络进行训练。

有人以为深度神经网络的成功主要是因为“算力”有了巨大发展,因为神经网络早 就有了,现在只不过是由于算力强了导致能算得更好了。这是一个误解。没有强大的算 力当然难以训练出很深的网络,但更重要的是,现在人们懂得如何训练这样的模型。事 实上,在 Hinton 等的工作[3]之前,人们一直不知道如何训练出超过五层的神经网络;这并不是由于算力不足,而是由于神经网络在训练中会遭遇“梯度消失”现象:在 BP算法将神经网络输出层误差通过链式反传到远离输出层的部分时,可能会导出“零”调 整量,导致网络远离输出层的部分无法根据输出误差进行调整,从而使得训练失败。这 是从传统神经网络发展到深层神经网络所遇到的巨大技术障碍。Hinton 等通过“逐层训 练后联合微调”来缓解梯度消失,使人们看到训练深层神经网络是可能的,由此激发了 后来的研究,使得深度神经网络得以蓬勃发展。事实上,深度神经网络研究的主要内容 之一就是设计有效措施来避免/减缓梯度消失。例如该领域一个重要技术进步就是用图 2 右边的 ReLU 函数来代替以往常用的 Sigmoid 函数,由于前者在零值附近的导数比后者 更“平缓”,使得梯度不会因下降得太快而导致梯度消失。

显然,基本计算单元的“可微性”(differentiability)对深度神经网络模型至关重要, 因为它是梯度计算的基础,而梯度计算是使用 BP 算法训练神经网络的基础。最近有一 些研究尝试在深度神经网络中使用不可微激活函数,但其求解过程是在松弛变换后通过 可微函数逼近,实质上仍依赖于基本计算单元的可微性。

3 为何“深”

虽然深度神经网络取得了巨大成功,但是“为什么必须使用很深的网络”一直没有 清楚的答案。关于这个问题,几年前我们曾经尝试从模型复杂度的角度进行解释。

一般来说,机器学习模型复杂度与其“容量”(capacity)有关,而容量对模型的学 习能力有重大影响,因此,模型的学习能力与其复杂度有关。机器学习界早就知道,如 果能增强一个学习模型的复杂度,那它的学习能力往往能得到提升。怎样提高复杂度呢?对神经网络模型来说,很明显有两个办法:把模型加“深”,或把模型加“宽”。从提升 模型复杂度的角度看,“加深”会更有效,因为简单来说,“加宽”仅是增加了计算单元, 从而增加了基函数的数目;而在“加深”时不仅增加了基函数的数目,还增加了函数嵌 套的层数,于是泛函表达能力会更强。所以,为提升复杂度,应该把网络“加深”。

有人可能会问,既然机器学习界早就知道能通过把神经网络模型加深来提升学习能 力,为什么以往不这样做呢?除了前面提到的“梯度消失”这个技术障碍,这还涉及另外一个问题:因为存在“过 拟合”(overfitting),在机器学习中把模型的学习能力变强未必一定是件好事。过拟合是 机器学习的大敌。简单来说,给定一个数据集,机器学习希望把数据集里所包含的“一 般规律”学出来用于今后的数据对象,但有时候可能会把当前数据集本身的一些“特性” 学出来却错误地当作一般规律去使用了,这就会犯错误,这就是过拟合。产生过拟合的重要因素之一,就是模型的学习能力太强了,把不该学的东西也学到了。所以,以往在 机器学习中都是尽量避免使用太复杂的模型。

现在为什么能使用深度神经网络这样的复杂模型了呢?有好几个重要因素:首先, 现在有大数据了。机器学习中有很多缓解过拟合的策略,例如决策树剪枝、支持向量机 正则化、神经网络提早终止训练等,但最简单有效的就是使用更多的数据。比方说,数 据集中只有三千个样本,从它里面学出来的“特性”不太可能是一般规律,但如果有三 千万,甚至三千万万个样本,那从它里面学出来的“特性”或许就已经是一般规律了。所以,现在有了大数据,我们不必再像以往那样对复杂模型“敬而远之”。第二,今天 有 GPU、CPU 集群等强力计算设备,使我们有足够的算力来训练复杂模型。第三,经过 机器学习界的努力,现在已经有很多有效训练深度神经网络这种复杂模型的技巧(trick), 例如很多缓解神经网络梯度消失的办法。

小结一下,这套对“为什么深”的“复杂度解释”主要强调三点:第一,今天有大 数据;第二,有强力的计算设备;第三,有很多有效的训练技巧。这三点导致现在能够 使用高复杂度模型,而深度神经网络恰是一种便于实现的高复杂度模型。上面这套解释有一定意义,例如它启发我们从复杂度的角度来研究深度学习中的一 些机制如 dropout 等[4]。但这套解释有个重要问题没解决:为什么扁平的(宽的)网络不 如深度神经网络?因为把网络“加宽”也能增加复杂度,虽然效率不如“加深”高。想 象一下,如果增加无限个隐层神经元,那么即便仅使用一个隐层,网络的复杂度也可以 提升非常高,甚至超过很多深度神经网络。然而在实践中人们发现,“宽”的浅层网络性 能比不上相对“窄”的深层网络,这用复杂度难以解释。因此,我们需要更深入一点的 思考。

我们问一个问题:深度神经网络最重要的功用是什么?对此,机器学习界目前有一个基本共识,那就是“表示学习”(representation learning)。简单来说,如图 3 所示,以往我们拿到一个数据对象,比方说一幅图像,先 要用很多特征比如说颜色、纹理等把它描述出来,这个步骤称为“特征工程”(feature engineering),然后我们再进行分类器学习。设计特征是许多应用研究领域的重要内容, 例如计算机视觉与模式识别领域的研究中有相当一部分内容是关于设计视觉特征如 SIFT、HOG 等,而这个部分是机器学习研究所不关心的,后者主要关注相对通用、不依 赖于具体应用域的技术,以往主要是针对表示为“特征向量”的数据去做分析建模。现 在有了深度学习,只需把数据从一端扔进去,从另外一端就能得到模型,中间用到的特 征描述可以通过深度学习自己来解决,这就是所谓的“特征学习”或者表示学习。从某 种角度看,这是机器学习研究的疆域扩展到了一些应用研究领域的传统范围。与以往的机器学习技术相比,在应用上来说这是一个很大的进步,因为不再需要完全依赖人类专 家设计特征了,特征本身也可以跟学习器一起进行联合优化。

进一步我们再问:对表示学习来说最关键的是什么?

我们的答案是:逐层加工处理。如图 4 所示,比方说在输入一幅图像时,在神经网 络最底层看到是一些像素,而一层层往上会逐步出现边缘、轮廓等抽象级别越来越高的 描述。虽然在真实的神经网络中未必有这么清晰的分层,但总体上确有自底向上不断抽 象的趋势。

事实上浅层神经网络几乎能做到深层神经网络所做的别的任何事(例如提升复杂 度),唯有深度的逐层抽象这件事,它由于层数浅而做不了。我们认为,“逐层加工处理” 正是表示学习的关键,也是深度学习成功的关键因素之一。

但是在机器学习领域,逐层加工处理并不新鲜,以前已经有很多技术是在进行逐层 加工处理。例如决策树、Boosting 都是“逐层加工处理”模型,但是与深度神经网络相 比,它们有两个弱点:一是模型复杂度不够。例如决策树,对给定数据集来说其模型深 度是受限的,假设仅考虑离散特征,则树的深度不会超过特征的个数,不像深度神经网 络那样可以任意提升复杂度;二是在学习过程中缺乏特征变换,学习过程始终在同一个 特征空间中进行。我们认为这两个因素对深度神经网络的成功也至关重要。当我们同时考虑“逐层加工处理”和“内置特征变换”时就会发现,深度模型是非 常自然的选择,因为基于深度模型可以容易地同时做到上面这两点。在选用深度模型后,由于模型复杂度高、容易过拟合,所以我们要用大数据;它很 难训练,所以我们要有训练技巧;计算开销大,所以我们要使用强力计算设备 …… 我们发现,这些是我们选择深度模型之后的结果,而不是选用深度模型的原因!这跟以前 的认识不太一样。以前认为因为具备了这些条件而导致我们能使用深度模型,现在看来 因果关系恰是反过来的。事实上,大训练数据、训练技巧,乃至强力计算设备都不仅限 服务于深度模型,同样可以服务于浅层模型,因此,具备了这些条件并不必然导致深度 模型优于浅层模型。

还有一点值得一提:拥有很大的训练数据时,需要使用复杂度高的模型,因为低复 杂度模型无法对大数据进行充分利用。比方说仅使用一个简单的线性模型,那么有两千 万样本还是两亿样本恐怕没有多少区别,因为模型已经“学不进去”了。而要模型有足 够的复杂度,这又给使用深度模型加了一分,因为深度模型可以容易地通过加深层数来 提升复杂度。

小结一下,我们的讨论分析导出的结论是,有三个关键因素:

 逐层加工处理

 内置特征变换

 模型复杂度够

这是我们认为深度神经网络能够成功的关键原因,或者说是我们关于深度神经网络 成功原因的猜想。有意思的是,这三个因素并没有“要求”我们必须使用神经网络模型。只要能同时做到这三点,别的模型应该也能做深度学习。

4 为何有必要探讨 DNN 之外的深度模型

没有任何模型是完美的,深度神经网络模型也不例外。

首先,凡是用过深度神经网络的人都知道,需花费大量的精力来调参。这会带来很 多问题。第一,调参经验很难共享,例如在图像任务上调参的经验很难在做语音任务时 借鉴。第二,今天无论是科学界还是工程技术界都非常关注研究结果的可重复性,而深 度学习恐怕是整个机器学习领域中可重复性问题最严重的子领域。常有这样的情况:一 组研究人员发文章报告的结果,很难被其他研究人员重现,因为即便使用相同的数据、 相同的方法,超参数设置稍有不同就可能使结果有巨大差别。

其次,神经网络的模型结构需要在训练前预设。但是在任务完成前,怎么能知道模 型复杂度应该是多大呢?事实上,我们通常是在使用超过必需复杂度的网络。深度神经 网络的一些最新研究进展,例如网络剪枝、权重二值化、模型压缩等,实质上都是试图 在训练过程中适当减小网络复杂度。显然,使用过高复杂度的模型必然导致不必要地消 耗了更多计算开销、导致对训练样本量不必要的高需求。有没有可能先用一个简单模型, 然后在学习过程中自适应地增加模型复杂度呢?遗憾的是这对神经网络很困难,因为若 网络结构未定,梯度求导对象在变化,那 BP 算法可就麻烦了。深度神经网络的其他缺陷例如小数据上难以使用、黑箱模型、理论分析困难等就不 赘述了。

或许有人会说,学术创新研究可能要考虑上述问题,而对应用实践来说只要性能好 就行,有深度神经网络就足够了……其实即便从应用角度来看,探讨神经网络之外的深 度学习模型也很有必要,因为虽然深度神经网络现在很流行,但在许多任务上(例如 Kaggle 的很多数据分析竞赛中)获胜的并非深度神经网络,而是随机森林、XGBoost 这 些相对比较传统的机器学习模型。事实上,目前深度神经网络做得好的几乎都是涉及图 像、视频、语音等的任务,都是典型的数值建模任务,而在其他涉及符号建模、离散建 模、混合建模的任务上,深度神经网络的性能并没有那么好。机器学习领域有一个著名的“没有免费的午餐”定理[2],它告诉我们,没有任何一 个模型在所有任务上都优于其他模型。实际上,不同模型各有自己的适用任务范畴,深 度神经网络也不例外。因此,有充分的理由去探讨深度神经网络之外的深度学习模型,因 为这样的模型或许能让我们在图像、视频、语音之外的更多任务上获得深度学习的性能 红利。

小结一下,今天我们谈到的深度模型都是深度神经网络,用技术术语来说,它是多 层可参数化可微分的非线性构件组成的模型,可以用 BP 算法来训练。这里有两个问题:一是现实世界中的问题多种多样,其所涉性质并不都是可微的,或能用可微构件最优建 模的;二是机器学习领域几十年的积累,有许多构件能作为复杂模型的基础,其中相当 一部分是不可微的。

能否基于不可微构件来构建新型深度学习模型?这是一个基础性挑战问题。一旦得 到答案,就同时回答了其他一些问题,例如深度模型是否只能是深度神经网络?是否能 不用 BP 算法训练?有没有可能让深度学习在图像、视频、语音之外的更多数据分析任 务上发挥作用?……

我们最近在这方面进行了一些初步探索,提出了“深度森林”这种非神经网络的新型深度学习模型[5,6]。深度森林的基础构件是不可微的决策树,其训练过程不基于 BP 算 法,甚至不依赖于梯度计算。它初步验证了上一节中关于深度学习奏效原因的猜想,即只要能做到逐层加工处理、内置特征变换、模型复杂度够,就能构建出有效的深度学习模型,并非必须使用神经网络。这种技术已经在大规模图像任务(我们认为此类任务的首选技术是深度神经网络)之外的许多任务中显示出优秀性能,包括互联网支付非法套现检测等大规模数据分析任务。在一定程度上验证了,在数值建模之外的任务上,有可能研制出新型深度学习模型来获得更好的性能。需要注意的是,任何一种新技术要取得广泛成功都需经过长期探索。以深度神经网 络中最著名的卷积神经网络为例,经过了三十来年、成千上万研究者和工程师探索和改 进,才取得今天的成功。深度森林还在“婴儿期”,虽然在某些问题上已得以应用,但是 不能期待它在广泛任务上都能够立即发挥作用。

实际上,我们以为深度森林探索的主要价值并不在于立即产生一种应用性能优越的 新算法,而是为深度学习的探索提供一个新思路。以往我们以为深度学习就是深度神经 网络,只能基于可微构件搭建,现在我们知道了这里有更多的可能性。好比说深度学习 是一间黑屋子,里面有什么呢?以前我们都知道有深度神经网络,并以为仅有深度神经 网络。现在深度森林把这个屋子打开了一扇门,今后可能会涌现更多的东西。这或许是 这个探索在学科领域发展上更重要的意义。

参考文献

[1] J. Sirignano. Deep learning models in finance. SIAM News, 2017, 50(5): 1.

[2] 周志华. 机器学习. 北京: 清华大学出版社, 2016.

[3] G. E. Hinton, S. Osindero, and Y.-W. Simon. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

[4] W. Gao and Z.-H. Zhou. Dropout Rademacher complexity of deep neural networks. Science China Information Sciences, 2016, 59(7): 072104: 1-072104: 12.

[5] Z.-H. Zhou and J. Feng. Deep forest: Towards an alternative to deep neural networks. In: IJCAI, 2017: 3553-3559.

[6] Z.-H. Zhou and J. Feng. Deep forest. National Science Review, 2019.

成为VIP会员查看完整内容
0
51

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

在过去的十年里,神经网络在视觉、语音、语言理解、医学、机器人和游戏等领域取得了惊人的成果。人们原本以为,这种成功需要克服理论上存在的重大障碍。毕竟,深度学习优化是非凸的、高度非线性的、高维的,那么我们为什么能够训练这些网络呢?在许多情况下,它们拥有的参数远远多于记忆数据所需的参数,那么为什么它们能够很好地推广呢?尽管这些主题已经占据了机器学习研究领域的大部分注意力,但当涉及到更简单的模型时,神经网络领域的原则是先数据训练再说。显然,这招奏效了。

https://www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/

结果,神经网络的实际成功已经超过了我们理解它们如何工作的能力。这门课是关于开发概念工具来理解当神经网络训练时会发生什么。其中一些思想早在几十年前就已经形成了(可能已经被社区的大部分人遗忘了),而另一些思想今天才刚刚开始被理解。我将试图传达我们最好的现代理解,尽管它可能不完整。

这门课从优化中汲取灵感,它不是一门优化课。一方面,优化的研究通常是指令性的,从优化问题的信息和明确定义的目标(如在特定规范下快速收敛)开始,并找出保证实现该目标的计划。对于现代神经网络来说,分析通常是描述性的: 采用在使用的程序,并找出它们(似乎)有效的原因。希望这种理解能让我们改进算法。

与优化研究的另一个区别是,目标不是简单地拟合一个有限的训练集,而是一般化。尽管神经网络有巨大的能力,但为什么它能泛化与训练的动态密切相关。因此,如果我们从优化中引入一个想法,我们不仅需要考虑它是否会更快地最小化成本函数,还需要考虑它是否以一种有利于泛化的方式实现。

这类应用不会为您提供在ImageNet上实现最先进性能的方法。它也不是那种为了证明定理而去证明定理的理论课。相反,我们的目的是为您提供概念性工具,以便您在任何特定情况下推断出影响训练的因素。

除了让你的网络更好地训练之外,学习神经网络训练动力学的另一个重要原因是,许多现代架构本身就足够强大,可以进行优化。这可能是因为我们在体系结构中明确地构建了优化,就像在MAML或深度均衡模型中那样。或者,我们可能只是在大量数据上训练一个灵活的架构,然后发现它具有惊人的推理能力,就像GPT3一样。不管怎样,如果网络架构本身在优化某些东西,那么外部训练过程就会与本课程中讨论的问题纠缠在一起,不管我们喜欢与否。为了有希望理解它提出的解决方案,我们需要理解问题。因此,本课程将以双层优化结束,利用课程中涵盖的所有内容。

目录内容:

  • 线性回归

我们将通过分析一个简单的模型开始这门课,梯度下降动力学可以被精确地确定:线性回归。尽管线性回归很简单,但它提供了对神经网络训练惊人的洞察力。我们将使用线性回归来理解两种神经网络训练现象: 为什么对输入进行归一化是一个好策略,以及增加维度可以减少过拟合。

  • 泰勒近似

线性化是我们理解非线性系统最重要的工具之一。我们将涵盖神经网络的一阶泰勒近似(梯度,方向导数)和二阶近似(Hessian)。我们将看到如何用雅可比向量乘积有效地计算它们。我们将使用Hessian诊断缓慢收敛和解释网络预测。

  • 度量

度量给出了流形上距离的一个局部概念。在许多情况下,两个神经网络之间的距离可以更有效地定义为它们所代表的函数之间的距离,而不是权重向量之间的距离。这就引出了一个重要的优化工具,叫做自然梯度。

  • 二阶优化

我们从几个角度来激励神经网络的二阶优化:最小化二阶泰勒近似、预处理、不变性和近端优化。我们将看到如何使用共轭梯度或克罗内克因子近似来近似二阶更新。

  • 自适应梯度法、归一化和权值衰减

我们看看已经成为神经网络训练的主要内容的三个算法特征。我们试图理解它们对动力学的影响,并找出构建深度学习系统的一些陷阱。

  • 无穷极限与过度参数化
  • Stochastic Optimization and Scaling
  • Bayesian Inference and Implicit Regularization
  • Dynamical Systems and Momentum
  • Differential Games
  • Bilevel Optimization
成为VIP会员查看完整内容
1
37

当我第一次在研究生院学习神经网络的时候,我问我的教授是否有选择架构和超参数的经验法则。我期望他的回答是“嗯,有点,但不是真的”……毕竟,神经网络比其他机器学习算法有更多的选择!当我阅读 Ian Goodfellow, Yoshua Bengio, 和 Aaaron Courville的深度学习书时,我一直在思考这个问题,并决定在这本书中列出一份规则清单。事实证明,它们有很多……主要是因为它们可以完成很多类型的神经网络和任务。

有趣的是,许多这些经验法则并没有得到很好的确立-深度学习仍然是一个相对较新的活跃研究领域,所以下面列出的很多规则只是研究人员最近发现的。除此之外,这本书中还有很多领域,作者要么说(用更多的学术术语)“我们不知道这是为什么,但我们可以看到这是真的”或者“我们知道这不是最好的方法,但这是一个活跃的研究领域,我们目前还不知道更好的方法“。

  • 如果可能的话,使用迁移学习。如果没有,并且要处理一个已经被广泛研究过的问题,那么从复制架构开始。

    • 网络体系结构最终应该通过实验来决定,并由验证误差来决定。更深(更多层more layers)、更薄(smaller layers)的网络更难优化,但往往会产生更好的泛化误差。
  • 总是要early stopping

    • 两种早期停止方法

      • 在整个数据集上使用新的参数重新训练模型,在早期停止点达到与前一个模型相同的训练步骤时停止。

      • 保持在早期停止时获得的参数,继续使用所有数据进行训练,当平均训练误差降到前一个早期停止点的训练误差以下时停止训练。

  • 使用Dropout可能是个好主意

    • 输入层用0.8的概率,隐藏层用0.5。

    • Dropout可能需要更大的网络,需要与更多的迭代训练。

  • ReLUs是理想的激活函数。当然它们还是存在缺陷,因此使用leaky或noisy ReLUs 可以获得性能增益,而代价是需要调整更多的参数。

  • 要获得可接受的性能,每个类别至少需要5,000次观察。

    • 如果你的观察量少于10万,使用k折交叉验证代替训练/验证/测试分割。
  • 使用GPU内存所能处理的批处理大小

    • 尝试不同的批次大小,每次增加2倍,从32开始(或者在大网络里先用16开始),增加到256。
  • 具有动量和衰减学习率的随机梯度下降是一种较好的优化算法。

成为VIP会员查看完整内容
0
48
小贴士
相关资讯
懂一点物理的人工智能
PaperWeekly
9+阅读 · 2019年12月5日
【深度学习】深度学习的问题究竟在哪?
产业智能官
4+阅读 · 2019年8月30日
ICLR 2019论文解读:量化神经网络
机器之心
6+阅读 · 2019年6月13日
周志华:关于机器学习的一点思考
新智元
6+阅读 · 2018年9月23日
周志华与「深度森林」
网易智能菌
6+阅读 · 2018年8月2日
周志华:满足这三大条件,可以考虑不用深度神经网络
人工智能学家
7+阅读 · 2018年4月18日
在深度学习的革命中,谈谈卷积神经网络(CNN)
开源中国
8+阅读 · 2018年3月23日
CCCF:周志华 | 关于强人工智能
AI科技评论
4+阅读 · 2018年1月17日
深度学习和普通机器学习之间有何区别?
36大数据
7+阅读 · 2017年12月4日
【深度学习】神经网络和深度学习简史
产业智能官
8+阅读 · 2017年11月16日
相关论文
Michael Joswig,Davide Lofano,Frank H. Lutz,Mimi Tsuruga
0+阅读 · 11月25日
Jack Richter-Powell,Jonathan Lorraine,Brandon Amos
0+阅读 · 11月23日
Petru Soviany,Radu Tudor Ionescu,Paolo Rota,Nicu Sebe
16+阅读 · 1月25日
Eugene A. Golikov
6+阅读 · 2020年12月10日
Joseph Y. Halpern
5+阅读 · 2019年9月30日
Large Batch Optimization for Deep Learning: Training BERT in 76 minutes
Yang You,Jing Li,Sashank Reddi,Jonathan Hseu,Sanjiv Kumar,Srinadh Bhojanapalli,Xiaodan Song,James Demmel,Kurt Keutzer,Cho-Jui Hsieh
3+阅读 · 2019年9月25日
Chunwei Tian,Yong Xu,Lunke Fei,Ke Yan
4+阅读 · 2018年10月11日
Deep Learning
Nicholas G. Polson,Vadim O. Sokolov
3+阅读 · 2018年8月3日
Top