While the depth of modern Convolutional Neural Networks (CNNs) surpasses that of the pioneering networks with a significant margin, the traditional way of appending supervision only over the final classifier and progressively propagating gradient flow upstream remains the training mainstay. Seminal Deeply-Supervised Networks (DSN) were proposed to alleviate the difficulty of optimization arising from gradient flow through a long chain. However, it is still vulnerable to issues including interference to the hierarchical representation generation process and inconsistent optimization objectives, as illustrated theoretically and empirically in this paper. Complementary to previous training strategies, we propose Dynamic Hierarchical Mimicking, a generic feature learning mechanism, to advance CNN training with enhanced generalization ability. Partially inspired by DSN, we fork delicately designed side branches from the intermediate layers of a given neural network. Each branch can emerge from certain locations of the main branch dynamically, which not only retains representation rooted in the backbone network but also generates more diverse representations along its own pathway. We go one step further to promote multi-level interactions among different branches through an optimization formula with probabilistic prediction matching losses, thus guaranteeing a more robust optimization process and better representation ability. Experiments on both category and instance recognition tasks demonstrate the substantial improvements of our proposed method over its corresponding counterparts using diverse state-of-the-art CNN architectures. Code and models are publicly available at https://github.com/d-li14/DHM


翻译:虽然现代革命神经网络(CNNs)的深度超过了具有巨大优势的先驱网络的深度,但传统的方式是仅对最终分类者进行监督,并逐步向上游传播梯度流动,这仍然是培训的支柱; 提出了半透明深度透视网络(DSN),以减轻因梯度通过长链流动而产生的优化困难; 然而,它仍然容易受到一些问题的影响,包括干扰等级代表制产生过程,以及本文从理论和经验角度所说明的不一致性优化目标; 作为对以往培训战略的补充,我们提议采用通用特征学习机制,即动态高度结构模拟,即通用特征学习机制,以强化一般化能力推进CNN培训; 部分受DSN的启发,我们从给定神经网络的中间层精心设计了侧端分支(DSN),每个分支都可以动态地从主分支的某些地点出现,这不仅保留了根植于骨干网络的代表,而且还在其本身的路径上产生了更多样化的表述。 我们进一步一步,通过一个最优化的公式促进不同部门之间的多层次互动,并有更稳定性预测匹配损失的普通特征学习机制,从而保证了在公共结构上进行更坚实的改进。

0
下载
关闭预览

相关内容

【CHI2021】可解释人工智能导论
专知会员服务
119+阅读 · 2021年5月25日
专知会员服务
22+阅读 · 2021年4月10日
最新《计算机体系结构和系统的机器学习》综述论文
专知会员服务
54+阅读 · 2021年2月17日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
14+阅读 · 2021年3月10日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
13+阅读 · 2019年11月14日
Arxiv
3+阅读 · 2018年12月29日
Arxiv
24+阅读 · 2018年10月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员