In this study, listeners of varied Indian nativities are asked to listen and recognize TIMIT utterances spoken by American speakers. We have three kinds of responses from each listener while they recognize an utterance: 1. Sentence difficulty ratings, 2. Speaker difficulty ratings, and 3. Transcription of the utterance. From these transcriptions, word error rate (WER) is calculated and used as a metric to evaluate the similarity between the recognized and the original sentences.The sentences selected in this study are categorized into three groups: Easy, Medium and Hard, based on the frequency ofoccurrence of the words in them. We observe that the sentence, speaker difficulty ratings and the WERs increase from easy to hard categories of sentences. We also compare the human speech recognition performance with that using three automatic speech recognition (ASR) under following three combinations of acoustic model (AM) and language model(LM): ASR1) AM trained with recordings from speakers of Indian origin and LM built on TIMIT text, ASR2) AM using recordings from native American speakers and LM built ontext from LIBRI speech corpus, and ASR3) AM using recordings from native American speakers and LM build on LIBRI speech and TIMIT text. We observe that HSR performance is similar to that of ASR1 whereas ASR3 achieves the best performance. Speaker nativity wise analysis shows that utterances from speakers of some nativity are more difficult to recognize by Indian listeners compared to few other nativities


翻译:在本研究报告中,印度不同民族的听众被要求倾听并承认美国发言者讲的TIMIT言论。我们发现,每个听众的回答有三种,而他们的回答却有三种:1. 判决困难评分,2. 议长困难评分,3. 发音困难评分。从这些抄录中,计算出单词错误率,并用作衡量公认和原句相似性的标准。本研究报告选择的句子分为三组:容易、中和硬,其依据是这些词的频度。我们注意到,每个听众的评分、发言者困难评分和WER的评分从容易到硬的几类判决。我们还比较了三种自动语音识别(ASR),根据三种声音模型(AM)和语言模型(LM):ASR1, AM,以印度裔和LM(LIMIT)发言者的录音为基础,ASR2, AM,使用美国土著演讲人发言困难的录音和LBRI发言本中的LM,以及ASR3,使用美国土著演讲人最英级的成绩分析。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
学习自然语言处理路线图
专知会员服务
139+阅读 · 2019年9月24日
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
医学 | 顶级SCI期刊专刊/国际会议信息4条
Call4Papers
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
7+阅读 · 2019年10月6日
VIP会员
相关资讯
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
医学 | 顶级SCI期刊专刊/国际会议信息4条
Call4Papers
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
ACL 2018 计算语言学协会接受论文列表
专知
3+阅读 · 2018年4月27日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
Top
微信扫码咨询专知VIP会员