SpecAugment is a very effective data augmentation method for both HMM and E2E-based automatic speech recognition (ASR) systems. Especially, it also works in low-resource scenarios. However, SpecAugment masks the spectrum of time or the frequency domain in a fixed augmentation policy, which may bring relatively less data diversity to the low-resource ASR. In this paper, we propose a policy-based SpecAugment (Policy-SpecAugment) method to alleviate the above problem. The idea is to use the augmentation-select policy and the augmentation-parameter changing policy to solve the fixed way. These policies are learned based on the loss of validation set, which is applied to the corresponding augmentation policies. It aims to encourage the model to learn more diverse data, which the model relatively requires. In experiments, we evaluate the effectiveness of our approach in low-resource scenarios, i.e., the 100 hours librispeech task. According to the results and analysis, we can see that the above issue can be obviously alleviated using our proposal. In addition, the experimental results show that, compared with the state-of-the-art SpecAugment, the proposed Policy-SpecAugment has a relative WER reduction of more than 10% on the Test/Dev-clean set, more than 5% on the Test/Dev-other set, and an absolute WER reduction of more than 1% on all test sets.
翻译:分解是HMM 和 E2E 自动语音识别( ASR) 系统的一种非常有效的数据增强方法,对于 HMM 和 E2E 的自动语音识别( ASR) 系统来说,这是一种非常有效的数据增强方法。 特别是,它也可以在低资源情景中发挥作用。 然而, 分解掩盖了固定增强政策中的时间范围或频率域,这可能使资源较少的 ASR 数据多样性相对较少。 在本文中,我们提出了一个基于政策的分解( 政策分解) 方法, 以缓解上述问题。 想法是使用增压选择政策和增压参数改变政策来解决固定方式。 这些政策的学习基于对相应增强政策适用的验证数据集的丢失。 分解旨在鼓励该模型学习更多样化数据的模式。 在实验中,我们评估了我们在低资源情景中的方法的有效性, 即100小时的librispeech 任务。 根据结果和分析, 我们可以看到, 以上所有问题都可以使用我们的提议来明显地缓解。 此外, 实验结果显示, 类结果显示, 与 降压1/D 的测试框框比降幅比降幅 10 的比降为10 的调 的 的 的 的 的 的 的 的 降幅比降压/ 标比降压/ 更 的 的 的 降压 的 降压为 更 的 的 的 的 的 的 降压/ 的 降压/ 。