动态层归一化(Dynamic Layer Normalization)

2017 年 8 月 14 日 深度学习每日摘要 DLdigest

动态层归一化(Dynamic Layer Normalization)

本文参考文献

Kim T, Song I, Bengio Y. Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition[J]. arXiv preprint arXiv:1707.06065, 2017.
被引次数:3

尽管基于神经网络的语音识别模型取得了很高的准确率,但是在训练集上和测试集上的准确率差别仍然不可忽视,语音识别的模型往往无法准确识别从未听过的说话者的声音,这个时候就需要对可适应性的声学建模进行研究。动态层归一化是Bengio组近期提出来的一种基于层归一化的技巧,按照作者论文中原话:

By dynamically generating the scaling and shifting parameters in layer normalization, DLN adapts neural acoustic models to the acoustic variability arising from various factors such as speakers, channel noises, and environments.

翻译成中文就是说,DLN可以动态地产生LN中的缩放因子和平移参数,DLN可以帮助模型更好地适应不同的说话者、不同通道的噪音以及环境的影响。

作者将其应用到基于deep LSTM的语音识别任务上,实验结果表明DLN可以有效提高识别的准确率。

作者指出,之所以想到DLN这个技巧,是源自风格迁移中的instance normalization,关于这一技巧的详细说明,请参见论文A Learned Representation for Artistic Style,这里我简要描述一下文中的思想:

以往的图片风格迁移是对每一种风格的图片都要进行预训练一次,因此,计算成本十分高,而Google Brain团队就提出了一个更加简单的方法,可以让深度卷积网络同时学习到多种不同的风格。

基于此,作者提出了DLN用在语音识别上,这种方法可以用梯度下降算法去优化,并且不同于其他的可适应性的声学建模方法,DLN不需要额外的特征向量(如i-vector)。

让我们回顾一下什么是LN,LN是对神经网络的每一层减小内部协变,公式如下,x先经过mu和sigma进行归一化,然后乘以缩放因子alpha以及平移因子beta,这两个因子是网络需要学习的参数,相比于批归一化(Batch Normalization,BN),LN在训练阶段和推理阶段的计算公式是一样的,并且LN可以有效地应用到循环神经网络中,关于LN如何应用到RNN的不同Cell中,可以访问我的github项目Automatic_Speech_Recognition的源码,网址是 https://github.com/zzw922cn/Automatic_Speech_Recognition ,也可以点击阅读原文进行查看。

文中还提到了Hypernetworks,它是利用子网络来以产生神经网络的参数。整个网络可以通过梯度下降来训练,Hypernetworks与LN很有联系,因为Hypernetworks也是产生一些参数。

作者在众多LSTM变体中选择了LSTMP作为语音识别的模型,LSTMP与常规的LSTM的不同之处在于其增加了一个projection layer,并将这个layer连接到LSTM的输入,好处就是可以通过改变这个projection layer来控制LSTMP的总参数,并且,作者应用了LN到LSTMP中,于是整个声学模型的结构可以用如下公式来描述:

LN运用在输入-隐含神经元以及隐含神经元-隐含神经元之间,Wp就是projection layer的权重,用来对LSTM的隐含神经元进行映射。同时为了使得音频特征能够联系到上下文信息,作者使用了双向的LSTMP网络,整个网络结构如下图所示:

基于深度双向LSTMP网络,作者应用了DLN,也就是模型适应,简单来说,就是DLN可以动态地生成缩放因子和平移因子,而不是像通过训练其他参数一样得到。对于不同的输入序列,可以产生不同的DLN因子来适应这个序列。

作者在WSJ和TED-LIUM两个任务上做了实验,结果表明引入了DLN的LSTMP模型可以有效地提高识别准确率,特别是对不同说话人及说话环境的适应程度。

公众号近期将连续推送几篇语音识别、语音合成的近期文章的讲解,欢迎关注,另外,博主最近收集了一个将近2000小时的中文语音识别语料库,包含wav音频以及对应的标签,语料库均抓取自互联网,耗时将近一个多月,不知道如果将此数据库开放给大家使用是否会涉及到版权问题?如果不涉及版权问题,我会免费分享给各位对语音感兴趣的朋友,欢迎大家发表意见。

题图:Je Suis Charlie


你可能会感兴趣的文章有:

端对端的深度卷积神经网络在语音识别中的应用

SampleRNN语音合成模型

详述DeepMind wavenet原理及其TensorFlow实现

Layer Normalization原理及其TensorFlow实现

Batch Normalization原理及其TensorFlow实现

Maxout Network原理及其TensorFlow实现

时延神经网络(TDNN)原理及其TensorFlow实现

ConvLSTM原理及其TensorFlow实现

Network-in-Network原理及其TensorFlow实现

如何基于TensorFlow实现ResNet和HighwayNet

常见的两种注意力机制

深度残差学习框架(Deep Residual Learning)

深度残差学习框架(续)

语音识别领域三十年来重要论文合集及其下载地址

推荐阅读 | 如何让TensorFlow模型运行提速36.8%

推荐阅读 | 如何让TensorFlow模型运行提速36.8%(续)

拥有1200多star的项目是什么样的心情


深度学习每日摘要|坚持技术,追求原创

微信ID:deeplearningdigest
长按二维码关注我


登录查看更多
1

相关内容

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
深度剖析卷积神经网络
云栖社区
7+阅读 · 2018年5月27日
【动态】何恺明团队最新力作:群组归一化(Group Normalization)
详解深度学习中的Normalization,不只是BN(1)
PaperWeekly
5+阅读 · 2018年2月6日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【深度】Deep Visualization:可视化并理解CNN
专知
11+阅读 · 2017年9月30日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
4+阅读 · 2018年5月21日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
22+阅读 · 2018年2月14日
Arxiv
3+阅读 · 2018年1月31日
Arxiv
6+阅读 · 2018年1月11日
VIP会员
相关资讯
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
深度剖析卷积神经网络
云栖社区
7+阅读 · 2018年5月27日
【动态】何恺明团队最新力作:群组归一化(Group Normalization)
详解深度学习中的Normalization,不只是BN(1)
PaperWeekly
5+阅读 · 2018年2月6日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【深度】Deep Visualization:可视化并理解CNN
专知
11+阅读 · 2017年9月30日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Top
微信扫码咨询专知VIP会员