本期 PW Live,我们邀请到旷视研究院基础模型组算法研究员万若斯,为大家带来批归一化和权重衰减的球面优化机制的主题分享。
对本期主题感兴趣的小伙伴,7 月 9 日(周四)晚 7 点,我们准时相约 PaperWeekly B 站直播间。
分享提纲
批归一化(Batch Normalization,BN)和权重衰减(weight decay,WD)以其出色稳定的表现成为了当今各种深度学习模型的标准配置,但它们的理论机制,一直以来仅有模糊的定性分析。
在这次报告中,我将介绍 BN 和 WD 对深度神经网络的训练过程的共同作用的球面优化机制(Spherical Motion Dynamics, SMD)。值得注意的是,我们基于球面优化机制的定量理论结果,不受限于模型的结构、数据集或任务类型,可以在诸如 ImageNet,COCO 等基于真实数据的复杂计算机视觉任务上得到完美验证。
BN与WD的背景
BN的表达方式与放缩不变形
BN和WD对损失函数的地形的影响
BN和WD的球面优化机制
球面优化机制的推导
球面优化机制的部分性质
实验结果
在不同模型、数据集、计算机视觉任务上验证球面优化机制
讨论球面优化机制对调参的影响
结论
嘉宾介绍
直播地址 & 交流群
本次直播将在 PaperWeekly B 站直播间进行,扫描下方海报二维码或点击阅读原文即可免费观看。线上分享结束后,嘉宾还将在直播交流群内实时 QA,在 PaperWeekly 微信公众号后台回复「PW Live」,即可获取入群通道。
B 站直播间:
合作伙伴
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。