Batch Normalization's (BN) unique property of depending on other samples in a batch is known to cause problems in several tasks, including sequential modeling. Yet, BN-related issues are hardly studied for long video understanding, despite the ubiquitous use of BN in CNNs for feature extraction. Especially in surgical workflow analysis, where the lack of pretrained feature extractors has lead to complex, multi-stage training pipelines, limited awareness of BN issues may have hidden the benefits of training CNNs and temporal models end to end. In this paper, we %present and analyze known as well as novel pitfalls of BN in video learning, including issues specific to online tasks such as a 'cheating' effect in anticipation. We observe that BN's properties create major obstacles for end-to-end learning. However, using BN-free backbones, even simple CNN-LSTMs beat state of the art in two surgical tasks by utilizing adequate end-to-end training strategies which maximize temporal context. We conclude that awareness of BN's pitfalls is crucial for effective end-to-end learning in surgical tasks. By reproducing results on natural-video datasets, we hope our insights will benefit other areas of video learning as well. Code: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}.


翻译:Batch Normalization(BN)依赖于批次中的其他样本的独特属性已知会在多个任务中导致问题,包括顺序建模。然而,对于长视频理解,尽管在CNN提取特征中普遍使用BN,但BN相关问题很少被研究。特别是在外科手术工作流分析中,预训练的特征提取器的缺乏导致了复杂的多阶段训练管道,BN问题的有限认识可能隐藏了训练CNN和时间模型的端到端学习的好处。本文中,我们提出并分析了BN在视频学习中已知及新的陷阱,包括特定于在线任务的问题,例如预测中的“作弊”效应。我们观察到,BN的属性为端到端学习创造了重大障碍。然而,使用无BN的骨干网,即使是简单的CNN-LSTM也能通过利用适当的端到端训练策略(最大化时序上下文)在两个外科任务中打败最先进的技术。我们得出结论,意识到BN的陷阱对于外科任务的有效端到端学习至关重要。通过在自然视频数据集上重现结果,我们希望我们的洞见也能造福于其他视频学习领域。代码:\url{https://gitlab.com/nct_tso_public/pitfalls_bn}。

0
下载
关闭预览

相关内容

【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
117+阅读 · 2022年4月21日
【硬核书】树与网络上的概率,716页pdf
专知会员服务
72+阅读 · 2021年12月8日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
视频自监督学习综述
专知
1+阅读 · 2022年7月5日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月8日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
14+阅读 · 2020年12月17日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
相关VIP内容
相关资讯
视频自监督学习综述
专知
1+阅读 · 2022年7月5日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关论文
Arxiv
0+阅读 · 2023年5月8日
Arxiv
0+阅读 · 2023年5月5日
Arxiv
33+阅读 · 2022年2月15日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
14+阅读 · 2020年12月17日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员