成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
【华为】对标谷歌Dropout专利,华为开源自研算法Disout,多项任务表现更佳
2020 年 5 月 21 日
深度学习自然语言处理
点击上方,选择
星标
或
置顶
,每天给你送干货
!
阅读大概需要7分钟
跟随小博主,每天进步一丢丢
来源|量子位
美国持续封锁,华为的技术自研,
已经
深入到了AI底层算法层面上,并开始将研究成果面向业界开源。
刚刚,华为诺亚实验室开源Disout算法
(地址在文末)
,直接对标谷歌申请专利的
Dropout算法
。
而且,在多项任务上,华为的新算法都超过了Dropout。比如,在ImageNet上训练的ResNet-50可以达到78.76%的准确率,而谷歌Dropout系列方法仅为76.8%。
这一算法背后的论文,已被AAAI 2020收录,并对外公开。华为到底提出的Disout到底如何,也得以呈现。
华为自研Disout:多项AI任务超越Dropout
在申请专利时,谷歌将Dropout定义为“解决神经网络过拟合的系统和方法”。
其核心的思路是,训练神经网络前向传播过程中,Dropout能让某个神经元的激活值以一定的概率p停止工作,也就是“Drop”
(丢弃)
,提升模型稳定性,来缓解过拟合现象。
而
Disout
是提出的新型替代方案,是一种通过研究
特征图扰动
来增强深度神经网络的泛化能力的方法。
简单来说,就是根据网络中间层的Rademacher 复杂度
(ERC)
,确定给定深度神经网络的泛化误差上界。
并将扰动引入特征图,来降低网络的Rademacher复杂度,从而提高其泛化能力。
它们之间的区别可以用下面这张图来展示——也就是对输出特征进行扰动,而不是丢弃。
相比之下,华为的方法效果更好。
Disout不但在传统视觉任务上表现优异,超越谷歌Dropout性能,在NLP任务以及语音处理任务上,同样具备有效性。
接下来,就让我们一起看下Disout在各个数据集上与Dropout系列方法的对比。
首先,CIFAR-10的和CIFAR-100数据上的测试准确率对比。
全连接层实验中,华为所提出的特征图扰动方法,训练CNN达到85.24%的准确度,相比于最新的RDdrop方法,测试准确率分别在CIFAR-10和CIFAR-100数据集上提高了2.13%和1.58%。
华为研究人员表示,他们提出的Disout方法可以有效地降低经验Rademacher的复杂度,同时保留模型的表示能力,从而具有较好的测试性能。
在卷积层实验上,华为的方法可以适用于卷积层,提高深度神经网络的性能,而且优于DropBlock方法,性能分别提高了0.32%和0.63%。
ImageNet 数据集实验中结果也显示,华为提出的特征扰动方法不仅可以替换常规的dropout方法提高深度神经网络的性能,而且可以提升最近提出的Dropblock方法的性能。
与传统的dropout方法相比,Disout将准确性从76.80%提高到77.71%,Block Disout方法达到了78.76%的top-1准确率,超过其他现有技术。
华为研究人员说,他们的方法可以在提高泛化能力并保留原始特征的有用信息。
此外,他们还在文本数据集IMDB和语音数据集UrbanSound8k上进行了实验,结果如下(上为文本、下为语音):
核心突破:
对输出特征进行扰动,而不是丢弃
那么,具体又是如何做到的呢?我们一起来了解一下
泛化理论
。
泛化理研究的是期望风险与经验风险之间的关系。
以图像分类任务为例,总体期望风险R(f
L
)和训练集上的经验风险
是:
Rademacher经验复杂度(ERC)被广泛用于量化期望风险和经验风险之间的差距,它的定义如定义1所示。
定义1
:给定由分布Q成的𝑁个实例D= {(x
𝑖
,y
𝑖
)}的给定训练数据集,网络𝑓
𝐿
的经验Rademacher复杂度定义为:
其中Rademacher变量是{-1,+ 1}中的独立统一随机变量。
使用经验Rademacher复杂度和MaDiarmid不等式,可以通过定理1得出预期风险的上限。
定理1
:给定𝜌 >0,对任意𝛿>0,至少以概率1−𝛿,对于所有的𝑓
𝐿
∈𝐹,满足
根据定理1,研究人员发现,期望风险和经验风险之间的差距,可以借助特定神经网络和数据集上的经验Rademacher复杂度加以限制。
直接计算ERC比较难,因此通常在训练阶段使用ERC的上限或近似值,来获得具有更好泛化的模型。
了解完泛化理论,就来看下
特征图扰动
。
研究人员通过
减少网络的ERC来学习特征图的扰动值
,而不是固定扰动值。
通常,对具有输入数据x
i
的第l层的输出特征f
L
(x
i
)所采用的干扰操作可以表示为:
其中,ε
l
i
是特征图上的扰动 。
上面的等式中扰动的形式是在ERC指导下自行学习得到的。由于ERC是通过网络最后一层的输出计算出来的,直接使用它来指导扰动将非常困难。
因此,研究人员使用以下定理,通过网络中间层的输出来间接表达网络的ERC:
定理 2
用K
l
[k;:]表示权重矩阵K
l
的第k行 ||・||p是向量的 p-norm。假设|| K
l
[k;:] ||
p
≤ B
l
,网络输出的ERC 可以被中间特征的ERC限制:
o 和 f 分别是在激活函数之前和之后的特征图。令:
则:
那么,最优的扰动,就可以通过求解下式得到:
直观地, 过于剧烈的扰动将破坏原始的特征并降低网络的表示能力;而过小的扰动不能很好地起到正则化效果。
算法如下所示:
实习生一作,华为诺亚实验室出品
这篇论文,一共有7名研究人员,分别来自北京大学、华为诺亚和悉尼大学,核心团队来自华为诺亚实验室。
一作是北京大学的
唐业辉
,这一研究是他在华为诺亚实验室实习期间完成。
二作是
王云鹤
,华为诺亚方舟实验室技术专家,也是唐业辉实习时的导师。
毕业于北京大学,在相关领域发表学术论文40余篇,包含NeurIPS、ICML、CVPR、ICCV、TPAMI、AAAI、IJCAI等。
主要从事边缘计算领域的算法开发和工程落地,研究领域包含深度神经网络的模型裁剪、量化、蒸馏和自动搜索等。
其他作者有来自华为诺亚实验室的
许奕星、许春景
、
北京大学的
许超
等人。
如果你对这项研究感兴趣,请收好传送门:
开源链接:
https://github.com/huawei-noah/Disout
论文链接:
https://www.aaai.org/Papers/AAAI/2020GB/AAAI-TangY.402.pdf
投稿或
交流学习,备注:
昵称-学校(公司)-方向
,进入DL&NLP交流群。
方向有很多:
机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等
。
记得备注呦
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
暂退法
关注
0
【ECCV2020-海康威视】用于深度表示学习的无监督图像分类
专知会员服务
69+阅读 · 2020年7月6日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
紧凑的神经网络模型设计研究综述
专知会员服务
73+阅读 · 2020年5月21日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【CVPR 2020 Oral-北大华为】只用加法的神经网络,重磅开源
专知会员服务
30+阅读 · 2020年4月6日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力
专知会员服务
19+阅读 · 2020年3月29日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
专知会员服务
28+阅读 · 2020年3月14日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
69+阅读 · 2019年10月18日
谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT!
雷锋网
5+阅读 · 2019年6月20日
开发 | 谷歌更强NLP模型XLNet开源:20项任务全面碾压BERT!
AI科技评论
6+阅读 · 2019年6月20日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
DeepMind论文:深度压缩感知,新框架提升GAN性能
极市平台
4+阅读 · 2019年5月23日
微软机器阅读理解系统性能升级,刷新CoQA对话式问答挑战赛纪录
微软研究院AI头条
4+阅读 · 2019年5月6日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
11+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年11月5日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
解读谷歌最强NLP模型BERT:模型、数据和训练
未来产业促进会
5+阅读 · 2018年10月20日
中国团以98%精度夺得MegaFace人脸识别冠军(开源)
全球人工智能
5+阅读 · 2018年3月12日
Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability
Arxiv
11+阅读 · 2020年2月18日
A Survey on Distributed Machine Learning
Arxiv
45+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Outlier Aware Network Embedding for Attributed Networks
Arxiv
6+阅读 · 2018年11月19日
Approximability of Discriminators Implies Diversity in GANs
Arxiv
4+阅读 · 2018年6月27日
GANE: A Generative Adversarial Network Embedding
Arxiv
4+阅读 · 2018年5月21日
Efficient end-to-end learning for quantizable representations
Arxiv
6+阅读 · 2018年5月15日
Scalable attribute-aware network embedding with localily
Arxiv
3+阅读 · 2018年4月17日
Large Scale Local Online Similarity/Distance Learning Framework based on Passive/Aggressive
Arxiv
5+阅读 · 2018年4月5日
A Structured Self-attentive Sentence Embedding
Arxiv
23+阅读 · 2017年3月9日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
暂退法
泛化
CIFAR-10
华为
期望风险
特征图
相关VIP内容
【ECCV2020-海康威视】用于深度表示学习的无监督图像分类
专知会员服务
69+阅读 · 2020年7月6日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
紧凑的神经网络模型设计研究综述
专知会员服务
73+阅读 · 2020年5月21日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
【CVPR 2020 Oral-北大华为】只用加法的神经网络,重磅开源
专知会员服务
30+阅读 · 2020年4月6日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
12+阅读 · 2020年3月30日
【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力
专知会员服务
19+阅读 · 2020年3月29日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
专知会员服务
28+阅读 · 2020年3月14日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
69+阅读 · 2019年10月18日
热门VIP内容
开通专知VIP会员 享更多权益服务
《支持 ML/AI 的下一代智能自主网络系统:性能提升与管理》177页
《飞行训练指导:夜间熟悉》152页
数据:联合作战的新弹药
《混合现实飞行模拟器中的夜视镜仿真:无缝集成真实世界》最新54页
相关资讯
谷歌更强 NLP 模型 XLNet 开源:20 项任务全面碾压 BERT!
雷锋网
5+阅读 · 2019年6月20日
开发 | 谷歌更强NLP模型XLNet开源:20项任务全面碾压BERT!
AI科技评论
6+阅读 · 2019年6月20日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
DeepMind论文:深度压缩感知,新框架提升GAN性能
极市平台
4+阅读 · 2019年5月23日
微软机器阅读理解系统性能升级,刷新CoQA对话式问答挑战赛纪录
微软研究院AI头条
4+阅读 · 2019年5月6日
详解谷歌最强NLP模型BERT(理论+实战)
AI100
11+阅读 · 2019年1月18日
已删除
将门创投
7+阅读 · 2018年11月5日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
解读谷歌最强NLP模型BERT:模型、数据和训练
未来产业促进会
5+阅读 · 2018年10月20日
中国团以98%精度夺得MegaFace人脸识别冠军(开源)
全球人工智能
5+阅读 · 2018年3月12日
相关论文
Distributed Non-Convex Optimization with Sublinear Speedup under Intermittent Client Availability
Arxiv
11+阅读 · 2020年2月18日
A Survey on Distributed Machine Learning
Arxiv
45+阅读 · 2019年12月20日
Advances and Open Problems in Federated Learning
Arxiv
18+阅读 · 2019年12月10日
Outlier Aware Network Embedding for Attributed Networks
Arxiv
6+阅读 · 2018年11月19日
Approximability of Discriminators Implies Diversity in GANs
Arxiv
4+阅读 · 2018年6月27日
GANE: A Generative Adversarial Network Embedding
Arxiv
4+阅读 · 2018年5月21日
Efficient end-to-end learning for quantizable representations
Arxiv
6+阅读 · 2018年5月15日
Scalable attribute-aware network embedding with localily
Arxiv
3+阅读 · 2018年4月17日
Large Scale Local Online Similarity/Distance Learning Framework based on Passive/Aggressive
Arxiv
5+阅读 · 2018年4月5日
A Structured Self-attentive Sentence Embedding
Arxiv
23+阅读 · 2017年3月9日
大家都在搜
洛克菲勒
palantir
大型语言模型
全面综述
ETHZ博士论文
笛卡尔
汽车智能化
大模型
RE-NET
出海产品从 0 到 1 该怎么做
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top