直播 | 旷视研究院最新理论成果：批归一化和权重衰减的球面优化机制 - 专知

会员服务 ·

0

直播 | 旷视研究院最新理论成果：批归一化和权重衰减的球面优化机制

2020 年 7 月 9 日 PaperWeekly

「PW Live」是 PaperWeekly 的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最好的方式，而有效地反馈和交流可能会让知识的传播更加有意义，从而产生更大的价值。

本期 PW Live，我们邀请到旷视研究院基础模型组算法研究员万若斯，为大家带来批归一化和权重衰减的球面优化机制的主题分享。

对本期主题感兴趣的小伙伴，7 月 9 日（周四）晚 7 点，我们准时相约 PaperWeekly B 站直播间。

分享提纲

批归一化（Batch Normalization，BN）和权重衰减（weight decay，WD）以其出色稳定的表现成为了当今各种深度学习模型的标准配置，但它们的理论机制，一直以来仅有模糊的定性分析。

在这次报告中，我将介绍 BN 和 WD 对深度神经网络的训练过程的共同作用的球面优化机制（Spherical Motion Dynamics， SMD）。值得注意的是，我们基于球面优化机制的定量理论结果，不受限于模型的结构、数据集或任务类型，可以在诸如 ImageNet，COCO 等基于真实数据的复杂计算机视觉任务上得到完美验证。

本次分享的具体内容有：

BN与WD的背景

BN的表达方式与放缩不变形
BN和WD对损失函数的地形的影响

BN和WD的球面优化机制

球面优化机制的推导
球面优化机制的部分性质

实验结果

在不同模型、数据集、计算机视觉任务上验证球面优化机制
讨论球面优化机制对调参的影响

结论

嘉宾介绍

图片 1.png

万若斯 / 旷视研究院算法研究员

万若斯，现为旷视研究院基础模型组的算法研究员。在北京大学数学科学学院取得应用数学学士学位，并在北京大学前沿交叉学院获得数据科学硕士学位。主要研究方向是深度学习模型与训练方法的理论基础。

直播地址 & 交流群

本次直播将在 PaperWeekly B 站直播间进行，扫描下方海报二维码或点击阅读原文即可免费观看。线上分享结束后，嘉宾还将在直播交流群内实时 QA，在 PaperWeekly 微信公众号后台回复「PW Live」，即可获取入群通道。

B 站直播间：

https://live.bilibili.com/14884511

合作伙伴

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

1

相关内容

权重衰减

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

深度学习批归一化及其相关算法研究进展

深度学习批归一化及其相关算法研究进展

专知会员服务

52+阅读 · 2020年7月17日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

专知会员服务

136+阅读 · 2020年5月7日

[CVPR 2020-港中文-MIT] 神经架构搜索鲁棒性

[CVPR 2020-港中文-MIT] 神经架构搜索鲁棒性

专知会员服务

26+阅读 · 2020年4月7日

【BAAI|2019】类脑神经网络技术及其应用，鲁华祥（附pdf）

【BAAI|2019】类脑神经网络技术及其应用，鲁华祥（附pdf）

专知会员服务

31+阅读 · 2019年11月21日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019

阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019

专知会员服务

17+阅读 · 2019年10月25日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

11+阅读 · 2020年3月26日

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

6+阅读 · 2020年3月25日

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市平台

6+阅读 · 2019年9月1日

极市直播|张志鹏:基于siamese网络的单目标跟踪(CVPR2019 Oral)

极市直播|张志鹏:基于siamese网络的单目标跟踪(CVPR2019 Oral)

极市平台

7+阅读 · 2019年5月5日

极市干货|第40期直播回放：诸宸辰-CVPR2019:基于Anchor-free特征选择模块的单阶目标检测

极市干货|第40期直播回放：诸宸辰-CVPR2019:基于Anchor-free特征选择模块的单阶目标检测

极市平台

6+阅读 · 2019年4月21日

解读 | 得见的高斯过程

解读 | 得见的高斯过程

机器学习算法与Python学习

14+阅读 · 2019年2月13日

今晚8点开讲 | Transformer新型神经网络在机器翻译中的应用

今晚8点开讲 | Transformer新型神经网络在机器翻译中的应用

人工智能头条

4+阅读 · 2018年7月26日

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

PaperWeekly

5+阅读 · 2017年12月20日

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

AI科技评论

4+阅读 · 2017年12月17日

报名 | 旷视研究院解读COCO2017人体姿态估计竞赛冠军论文

报名 | 旷视研究院解读COCO2017人体姿态估计竞赛冠军论文

量子位

4+阅读 · 2017年12月7日

Learning Disentangled Representations for Recommendation

Learning Disentangled Representations for Recommendation

Arxiv

8+阅读 · 2019年10月31日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Generative Adversarial Image Synthesis with Decision Tree Latent Controller

Arxiv

5+阅读 · 2018年5月27日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence

Arxiv

10+阅读 · 2018年2月16日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

VIP会员

相关主题

旷视研究院

相关VIP内容

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

深度学习批归一化及其相关算法研究进展

深度学习批归一化及其相关算法研究进展

专知会员服务

52+阅读 · 2020年7月17日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

【重磅】GCN大佬Thomas Kipf博士论文《深度学习图结构表示》178页pdf阐述图卷积神经网络等机制与应用

专知会员服务

136+阅读 · 2020年5月7日

[CVPR 2020-港中文-MIT] 神经架构搜索鲁棒性

[CVPR 2020-港中文-MIT] 神经架构搜索鲁棒性

专知会员服务

26+阅读 · 2020年4月7日

【BAAI|2019】类脑神经网络技术及其应用，鲁华祥（附pdf）

【BAAI|2019】类脑神经网络技术及其应用，鲁华祥（附pdf）

专知会员服务

31+阅读 · 2019年11月21日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

【CCF优秀博士学位论文奖-2019】表示学习的高效算法，清华大学陈健飞

专知会员服务

48+阅读 · 2019年11月8日

阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019

阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019

专知会员服务

17+阅读 · 2019年10月25日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

11+阅读 · 2020年3月26日

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PW Live 直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

6+阅读 · 2020年3月25日

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市直播| 朱政：基于孪生网络结构的SiamRPN系列目标跟踪算法

极市平台

6+阅读 · 2019年9月1日

极市直播|张志鹏:基于siamese网络的单目标跟踪(CVPR2019 Oral)

极市直播|张志鹏:基于siamese网络的单目标跟踪(CVPR2019 Oral)

极市平台

7+阅读 · 2019年5月5日

极市干货|第40期直播回放：诸宸辰-CVPR2019:基于Anchor-free特征选择模块的单阶目标检测

极市干货|第40期直播回放：诸宸辰-CVPR2019:基于Anchor-free特征选择模块的单阶目标检测

极市平台

6+阅读 · 2019年4月21日

解读 | 得见的高斯过程

解读 | 得见的高斯过程

机器学习算法与Python学习

14+阅读 · 2019年2月13日

今晚8点开讲 | Transformer新型神经网络在机器翻译中的应用

今晚8点开讲 | Transformer新型神经网络在机器翻译中的应用

人工智能头条

4+阅读 · 2018年7月26日

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

今晚直播 | 基于生成模型的事件流研究 + NIPS 2017 论文解读

PaperWeekly

5+阅读 · 2017年12月20日

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

AI科技评论

4+阅读 · 2017年12月17日

报名 | 旷视研究院解读COCO2017人体姿态估计竞赛冠军论文

报名 | 旷视研究院解读COCO2017人体姿态估计竞赛冠军论文

量子位

4+阅读 · 2017年12月7日

相关论文

Learning Disentangled Representations for Recommendation

Learning Disentangled Representations for Recommendation

Arxiv

8+阅读 · 2019年10月31日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

FoveaBox: Beyond Anchor-based Object Detector

Arxiv

5+阅读 · 2019年4月8日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

19+阅读 · 2018年12月10日

Meta-Learning with Latent Embedding Optimization

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Generative Adversarial Image Synthesis with Decision Tree Latent Controller

Arxiv

5+阅读 · 2018年5月27日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence

Arxiv

10+阅读 · 2018年2月16日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员