Subword units are commonly used for end-to-end automatic speech recognition (ASR), while a fully acoustic-oriented subword modeling approach is somewhat missing. We propose an acoustic data-driven subword modeling (ADSM) approach that adapts the advantages of several text-based and acoustic-based subword methods into one pipeline. With a fully acoustic-oriented label design and learning process, ADSM produces acoustic-structured subword units and acoustic-matched target sequence for further ASR training. The obtained ADSM labels are evaluated with different end-to-end ASR approaches including CTC, RNN-Transducer and attention models. Experiments on the LibriSpeech corpus show that ADSM clearly outperforms both byte pair encoding (BPE) and pronunciation-assisted subword modeling (PASM) in all cases. Detailed analysis shows that ADSM achieves acoustically more logical word segmentation and more balanced sequence length, and thus, is suitable for both time-synchronous and label-synchronous models. We also briefly describe how to apply acoustic-based subword regularization and unseen text segmentation using ADSM.


翻译:字幕单位通常用于终端到终端自动语音识别(ASR),而完全注重声学的小字建模方法则有些缺失。我们建议采用声学数据驱动子字建模(ADSM)方法,将若干基于文本和声学的小字方法的优点调整成一个管道。通过完全注重声学的标签设计和学习过程,ADSM制作了声学结构的小字组和声学匹配的目标序列,以进一步进行ASR培训。获得的ADSM标签用不同的终端到终端的ASR方法进行评估,包括CTC、RNN-传输器和关注模型。对LibriSpeech Camp的实验显示,ADSM显然超越了多个字组编码(BPE)和读音辅助小词建模(PASM)的优点。详细分析显示,ADSM在声学上达到更符合逻辑的字分解和更平衡的顺序长度,因此适合于时间同步和标签同步的模式。我们还简要地描述了如何应用基于声学的小字正规化和采用ADSM。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
159+阅读 · 2020年1月16日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
专知会员服务
159+阅读 · 2020年1月16日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Top
微信扫码咨询专知VIP会员