Masked language models have revolutionized natural language processing systems in the past few years. A recently introduced generalization of masked language models called warped language models are trained to be more robust to the types of errors that appear in automatic or manual transcriptions of spoken language by exposing the language model to the same types of errors during training. In this work we propose a novel approach that takes advantage of the robustness of warped language models to transcription noise for correcting transcriptions of spoken language. We show that our proposed approach is able to achieve up to 10% reduction in word error rates of both automatic and manual transcriptions of spoken language.


翻译:过去几年来,蒙面语言模式使自然语言处理系统发生了革命性的变化,最近引进了口语模式,称为扭曲语言模式的口语模式,通过在培训期间将语言模式暴露在相同类型的错误中,对口语自动或人工抄录中出现的错误类型进行培训,使其更加稳健。在这项工作中,我们提出一种新颖的办法,利用扭曲语言模式的稳健性,将抄录噪音用于纠正口语的抄录。我们表明,我们提议的办法能够将口语自动和人工抄录的字差率降低10%。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年5月10日
DARPA可解释人工智能
专知会员服务
129+阅读 · 2020年12月22日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
96+阅读 · 2020年5月31日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Arxiv
6+阅读 · 2020年4月14日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
Top
微信扫码咨询专知VIP会员