Inverse text normalization (ITN) converts spoken-domain automatic speech recognition (ASR) output into written-domain text to improve the readability of the ASR output. Many state-of-the-art ITN systems use hand-written weighted finite-state transducer(WFST) grammars since this task has extremely low tolerance to unrecoverable errors. We introduce an open-source Python WFST-based library for ITN which enables a seamless path from development to production. We describe the specification of ITN grammar rules for English, but the library can be adapted for other languages. It can also be used for written-to-spoken text normalization. We evaluate the NeMo ITN library using a modified version of the Google Text normalization dataset.


翻译:反正文本正常化( ITN) 将口头主页自动语音识别( ASR) 输出转换为书面主页文本, 以提高 ASR 输出的可读性。 许多最先进的 ITN 系统使用手写加权定调器语法马( WFST), 因为此项任务对无法收回的错误的容忍度极低。 我们为 ITN 引入了一个基于 开放源的 Python WFST 图书馆, 使从开发到制作的路径能够畅通无阻。 我们描述了 ITN 语法规则的英文规格, 但该图书馆可以调整为其他语言。 也可以用于书面对语言的文本正常化。 我们使用谷歌文本正常化数据集的修改版本来评估 Nemo ITN 图书馆 。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
已删除
将门创投
4+阅读 · 2019年6月5日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年6月3日
Arxiv
0+阅读 · 2021年6月2日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年6月5日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员