[ICML-Google]先宽后窄:对深度薄网络的有效训练 - 专知

会员服务 ·

0

[ICML-Google]先宽后窄:对深度薄网络的有效训练

2020 年 7 月 5 日 专知

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

为了将深度学习模型部署到生产中，它需要准确和紧凑，以满足延迟和内存的限制。这通常会导致网络的深度(以确保性能)和瘦(以提高计算效率)。本文提出了一种在理论保证下训练深薄网络的有效方法。我们的方法是由模型压缩驱动的。它由三个阶段组成。在第一阶段，我们充分拓宽深薄网络，并训练它直到收敛。在第二阶段，我们使用这个训练良好的深宽网络来预热(或初始化)原始的深薄网络。这是通过让瘦网络从层到层模拟宽网络的直接输出来实现的。在最后一个阶段，我们进一步优化这个初始化良好的深薄网络。通过平均场分析，建立了理论保证，表明了分层模拟比传统的反向传播从头开始训练深薄网络的优越性。我们还进行了大规模的实证实验来验证我们的方法。通过使用我们的方法进行训练，ResNet50可以超过ResNet101, BERTBASE可以与BERTLARGE相媲美，后者的模型都是通过文献中的标准训练程序进行训练的。

https://www.zhuanzhi.ai/paper/d7345d410bbd97d5f5959aaec46667ba

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DTN” 可以获取《[ICML-Google]先宽后窄:对深度薄网络的有效训练》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

欢迎扫一扫关注专知视频号，第一时间看人工智能最新精彩视频！

点击“阅读原文”，了解使用专知，查看获取5000+AI主题知识资源

登录查看更多

3

相关内容

ICML

ICML 是 International Conference on Machine Learning的缩写，即国际机器学习大会。ICML如今已发展为由国际机器学习学会（IMLS）主办的年度机器学习国际顶级会议。

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

专知会员服务

37+阅读 · 2020年8月16日

卷积神经网络结构优化综述

专知会员服务

81+阅读 · 2020年8月4日

(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建，134页ppt

(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建，134页ppt

专知会员服务

92+阅读 · 2020年7月30日

基于改进卷积神经网络的短文本分类模型

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

专知会员服务

39+阅读 · 2020年2月21日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

Google Brain ICLR Talk：元学习的前沿与挑战

Google Brain ICLR Talk：元学习的前沿与挑战

专知

27+阅读 · 2019年5月9日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

【ECCV2018教程】220页深度神经网络训练归一化: 数学基础与理论、挑战(附pdf下载)

【ECCV2018教程】220页深度神经网络训练归一化: 数学基础与理论、挑战(附pdf下载)

专知

10+阅读 · 2018年9月8日

【CVPR2018】Google GAN之父Ian Goodfellow 最新演讲：生成对抗网络介绍

【CVPR2018】Google GAN之父Ian Goodfellow 最新演讲：生成对抗网络介绍

专知

9+阅读 · 2018年6月18日

Attentive Graph Neural Networks for Few-Shot Learning

Attentive Graph Neural Networks for Few-Shot Learning

Arxiv

40+阅读 · 2020年7月14日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

Arxiv

5+阅读 · 2019年1月3日

Transfer Learning with Neural AutoML

Arxiv

5+阅读 · 2018年9月11日

Stock Chart Pattern recognition with Deep Learning

Stock Chart Pattern recognition with Deep Learning

Arxiv

6+阅读 · 2018年8月1日

High-Resolution Deep Convolutional Generative Adversarial Networks

Arxiv

4+阅读 · 2018年5月10日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

Interpretable R-CNN

Arxiv

4+阅读 · 2017年11月14日

VIP会员

相关主题

深度学习模型

相关VIP内容

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

专知会员服务

37+阅读 · 2020年8月16日

卷积神经网络结构优化综述

专知会员服务

81+阅读 · 2020年8月4日

(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建，134页ppt

(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建，134页ppt

专知会员服务

92+阅读 · 2020年7月30日

基于改进卷积神经网络的短文本分类模型

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

专知会员服务

39+阅读 · 2020年2月21日

【Google AI】开源NoisyStudent：自监督图像分类

【Google AI】开源NoisyStudent：自监督图像分类

专知会员服务

55+阅读 · 2020年2月18日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

Google Brain ICLR Talk：元学习的前沿与挑战

Google Brain ICLR Talk：元学习的前沿与挑战

专知

27+阅读 · 2019年5月9日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

【ECCV2018教程】220页深度神经网络训练归一化: 数学基础与理论、挑战(附pdf下载)

【ECCV2018教程】220页深度神经网络训练归一化: 数学基础与理论、挑战(附pdf下载)

专知

10+阅读 · 2018年9月8日

【CVPR2018】Google GAN之父Ian Goodfellow 最新演讲：生成对抗网络介绍

【CVPR2018】Google GAN之父Ian Goodfellow 最新演讲：生成对抗网络介绍

专知

9+阅读 · 2018年6月18日

相关论文

Attentive Graph Neural Networks for Few-Shot Learning

Attentive Graph Neural Networks for Few-Shot Learning

Arxiv

40+阅读 · 2020年7月14日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning

Arxiv

10+阅读 · 2019年9月4日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems for Multi-Agent Dense Traffic Navigation

Arxiv

5+阅读 · 2019年1月3日

Transfer Learning with Neural AutoML

Arxiv

5+阅读 · 2018年9月11日

Stock Chart Pattern recognition with Deep Learning

Stock Chart Pattern recognition with Deep Learning

Arxiv

6+阅读 · 2018年8月1日

High-Resolution Deep Convolutional Generative Adversarial Networks

Arxiv

4+阅读 · 2018年5月10日

HONE: Higher-Order Network Embeddings

Arxiv

12+阅读 · 2018年1月28日

Interpretable R-CNN

Arxiv

4+阅读 · 2017年11月14日

大家都在搜

大型语言模型

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员