近年来,语音识别技术取得了显著进展,这在很大程度上可以归功于语音识别中深度学习的兴起和计算能力的增强。计算能力的增强使得模型能够在不断扩大的数据集上进行训练,而深度学习则使得这些大型数据集得到了更好的利用。 对于商业产品而言,常见的做法是在数千小时的转录音频上进行训练。然而,音频的手动转录成本高昂,高性能系统的发展通常仅限于商业上可行的任务和语言。为了推广不同语言的语音识别技术并使其更易于获取,至关重要的是要最小化训练所需的转录音频量。本论文通过探索各种方法来减少在训练自动语音识别系统中对转录数据的依赖,这些方法包括新颖的主动学习和半监督学习方法。 对于主动学习,本论文提出了一种基于贝叶斯框架的方法,称为NBest-BALD。NBest-BALD基于贝叶斯主动学习差异(BALD)。NBest-BALD基于模型参数与话语预测之间的互信息来选择话语,即I[θ, w|Dl, Xi]。使用Monte-Carlo Dropout来近似从模型参数的后验中采样,并使用N-Best列表来近似假设空间上的熵。在英语会话电话语音的实验中,NBest-BALD的表现优于随机抽样和以前使用置信度得分或NBest-Entropy作为信息量度的主动学习方法。NBest-BALD在选择更多数据时所获得的绝对词错误率(WER)降低高达14%与随机选择相比。 此外,为语音识别中的主动数据选择开发了一种鼓励代表性的新方法。该方法首先构建一个关于话语长度的直方图。选择话语时,从直方图中抽取一个词长,并选择相应直方图箱中信息量最高的话语。这确保了所选数据集的话语长度分布与总数据集相似。在英语会话电话语音的小批量获取中,该方法显著提高了主动学习的表现。基于直方图的抽样将从选择更多数据中获得的绝对WER降低高达57%与随机选择相比,和高达50%与仅使用信息量的方法相比。 在语音识别中进一步贡献到主动学习的是定义了一个考虑到对话和会议序贯性的成本函数。考察了根据新成本函数应选择数据的粒度。检查了按话语级别选择数据、作为连续话语的固定长度块、作为连续话语的变长块以及按侧面级别选择数据。成本函数结合了话语长度(以秒计)的实时因子(RTF)和每个话语的开销(t1)以及连续话语块的开销(t2)。开销t2最大地影响了话语级别的选择方法(之前的方法依赖于此),并且这一粒度层次产生了最差的语音识别性能。这一结果表明,关注可以考虑更好成本函数的选择方法至关重要。 在半监督学习方面,开发了一种新算法,称为余弦距离虚拟对抗训练(CD-VAT)。虽然CD-VAT不是针对语音识别的,但该技术的灵感来源于最初向语音识别使用一致性正则化的工作。CD-VAT允许对发音区分性声学嵌入进行半监督训练,而不要求标记数据和未标记数据的说话者集合相同。CD-VAT是一种一致性正则化形式,其中监督训练损失与无监督损失进行插值。这种损失是CD-VAT损失,它通过测量带有和不带对抗噪声的嵌入之间的余弦距离来平滑模型的嵌入相对于输入。在一个大规模的说话者验证任务中,CD-VAT恢复了32.5%的等错误率(EER)改进,该改进会在未标记数据的所有说话者标签可用时获得。 对于语音识别的半监督学习,本论文提出了两种改进输入标记化的方法,这种标记化用于派生在遮蔽预测预训练中使用的训练目标;一种自监督学习的形式。第一种方法是有偏自监督学习。这不是对使用无监督训练的模型的嵌入进行聚类,而是对经过少量更新的微调的模型的嵌入进行聚类。微调是在任何半监督学习情景中可用的少量监督数据上进行的。这种微调确保了自监督学习任务专门针对模型应用的任务。在英语朗读语音的实验中,有偏自监督学习将WER降低了高达24%超过无偏基线。第二种方法用隐马尔可夫模型(HMM)替换了之前用于标记化输入的K-均值聚类算法。训练后,使用Viterbi算法执行输入的标记化。该结果是一种标记化算法,它考虑了数据的序贯性并可以在时间上平滑标记化。在同一个英语朗读语音任务上,基于HMM的标记化将WER降低了高达6%与使用K-均值的标记化相比。

成为VIP会员查看完整内容
25

相关内容

主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。 主动学习是“一种学习方法,在这种方法中,学生会主动或体验性地参与学习过程,并且根据学生的参与程度,有不同程度的主动学习。” (Bonwell&Eison 1991)Bonwell&Eison(1991) 指出:“学生除了被动地听课以外,还从事其他活动。” 在高等教育研究协会(ASHE)的一份报告中,作者讨论了各种促进主动学习的方法。他们引用了一些文献,这些文献表明学生不仅要做听,还必须做更多的事情才能学习。他们必须阅读,写作,讨论并参与解决问题。此过程涉及三个学习领域,即知识,技能和态度(KSA)。这种学习行为分类法可以被认为是“学习过程的目标”。特别是,学生必须从事诸如分析,综合和评估之类的高级思维任务。
【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
【KDD2020】图神经网络:基础与应用,322页ppt
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
324+阅读 · 2023年3月31日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
14+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员