The peaky behavior of CTC models is well known experimentally. However, an understanding about why peaky behavior occurs is missing, and whether this is a good property. We provide a formal analysis of the peaky behavior and gradient descent convergence properties of the CTC loss and related training criteria. Our analysis provides a deep understanding why peaky behavior occurs and when it is suboptimal. On a simple example which should be trivial to learn for any model, we prove that a feed-forward neural network trained with CTC from uniform initialization converges towards peaky behavior with a 100% error rate. Our analysis further explains why CTC only works well together with the blank label. We further demonstrate that peaky behavior does not occur on other related losses including a label prior model, and that this improves convergence.


翻译:四氯化碳模型的峰值行为是众所周知的实验性行为。 但是, 了解为何会发生峰值行为, 以及这是否是一个好财产。 我们正式分析了四氯化碳损失和相关培训标准中的峰值行为和梯度下位趋同特性。 我们的分析提供了深刻理解为何会发生峰值行为, 以及何时会发生峰值行为。 简单的例子对于任何模型来说都是微不足道的, 我们证明, 与四氯化碳培训过的从统一初始化到统一初始化的饲料向前神经网络会与100%误差率的峰值行为汇合在一起。 我们的分析进一步解释了为什么气候技术中心只与空白标签一起运作良好。 我们还表明, 峰值行为不会发生在其他相关损失上, 包括先前的标签模型, 这可以改善趋同性。

0
下载
关闭预览

相关内容

开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2019年4月15日
Arxiv
0+阅读 · 2021年7月28日
Arxiv
0+阅读 · 2021年7月28日
Deformable ConvNets v2: More Deformable, Better Results
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2019年4月15日
Top
微信扫码咨询专知VIP会员