In this paper, we review various end-to-end automatic speech recognition algorithms and their optimization techniques for on-device applications. Conventional speech recognition systems comprise a large number of discrete components such as an acoustic model, a language model, a pronunciation model, a text-normalizer, an inverse-text normalizer, a decoder based on a Weighted Finite State Transducer (WFST), and so on. To obtain sufficiently high speech recognition accuracy with such conventional speech recognition systems, a very large language model (up to 100 GB) is usually needed. Hence, the corresponding WFST size becomes enormous, which prohibits their on-device implementation. Recently, fully neural network end-to-end speech recognition algorithms have been proposed. Examples include speech recognition systems based on Connectionist Temporal Classification (CTC), Recurrent Neural Network Transducer (RNN-T), Attention-based Encoder-Decoder models (AED), Monotonic Chunk-wise Attention (MoChA), transformer-based speech recognition systems, and so on. These fully neural network-based systems require much smaller memory footprints compared to conventional algorithms, therefore their on-device implementation has become feasible. In this paper, we review such end-to-end speech recognition models. We extensively discuss their structures, performance, and advantages compared to conventional algorithms.


翻译:在本文中,我们审查了各种端到端自动语音识别算法及其在设备上应用的优化技术。常规语音识别系统包括大量离散组件,如声学模型、语言模型、发音模型、发音模型、文本调整器、反文本归正器、基于精密国家传输器(WFST)的解码器等等。为了在常规语音识别系统中获得足够高的语音识别精度,通常需要一种非常大的语言模型(最高达100GB ) 。因此,相应的WFST规模变得巨大,禁止其在设备上实施。最近,提出了完全神经网络终端到终端语音识别算法。例子包括基于连接温度分类(CTC)、常规神经网络转换器(RNNNE-T)、基于注意的Encoder-Decoder模型(AEDED)、Monotonic Chunk Wy(MoCHA)、基于变换语言识别系统的语音识别系统。这些基于完全神经网络的系统的规模巨大,因此,我们需要在常规语音分析模型上进行更小规模的图像分析。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
CornerNet: Detecting Objects as Paired Keypoints 论文笔记
统计学习与视觉计算组
7+阅读 · 2018年9月27日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
revelation of MONet
CreateAMind
5+阅读 · 2019年6月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
CornerNet: Detecting Objects as Paired Keypoints 论文笔记
统计学习与视觉计算组
7+阅读 · 2018年9月27日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员