项目名称: 基于音节模型的音频点播关键技术研究

项目编号: No.61301218

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 无线电电子学、电信技术

项目作者: 吕勇

作者单位: 河海大学

项目金额: 23万元

中文摘要: 针对汉语同音字多,音节较少, 多个汉字对应一个音节的特点,为每个汉语音节建立音频索引库,将用户发出的口语识别为音节序列。在匹配解码阶段,首先根据输入语音的音节序列信息,从音频索引库的相应音节条目中选取候选音频,再将输入语音的音节序列与候选音频的音节序列进行匹配解码。用音节序列匹配取代传统的文本匹配,提高了解码精度,降低了系统复杂度。在前端语音识别中,用非线性环境补偿技术对加性噪声、信道失真和室内混响进行补偿,提高语音识别的鲁棒性;并采用N-best算法选取前N个最有可能的语音单元作为输出结果,得到待识别语音的多个可能的音节序列,从而减小前端语音识别错误对后端音节序列匹配解码的影响。

中文关键词: 音频点播;音节模型;语音识别;环境补偿;混响语音处理

英文摘要: In Chinese, there are a large number of homophones and a small number of syllables, and more than one Chinese character corresponds to the same syllable. Therefore, the audio indexing library is established for every Chinese syllable and the input speech is recognized as a syllable sequence in this project. In the syllable matching procedure, the potential audio tracks are selected from the audio indexing library according to the syllable information of the input speech and then the syllable sequence of the input speech is compared with the syllable sequence of every potential audio track. The traditional text matching is replaced by the syllable sequence matching, which improves the decoding accuracy and reduces the system complexity. For the front-end speech recognition procedure, the nonlinear compensation technology is employed to compensate the additive noise, channel distortion and room reverberation, which can improve the robustness of speech recognition systems. Furthermore, the N-best algorithm is used to produce more than one potential syllable sequence of the input speech, which reduces the impact of the wrong speech recognition results and improves the accuracy of the syllable sequence decoding.

英文关键词: Audio-on-demand;Syllable model;Speech recognition;Environment compensation;Reverberant speech processing

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
视频隐私保护技术综述
专知会员服务
34+阅读 · 2022年1月19日
首篇「多模态摘要」综述论文
专知会员服务
105+阅读 · 2021年9月14日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
专知会员服务
35+阅读 · 2021年2月20日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
142+阅读 · 2020年9月6日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
下一代对话系统中的关键技术(下篇)
PaperWeekly
2+阅读 · 2022年4月1日
如何亿点点降低语音识别跨领域、跨语种迁移难度?
微软研究院AI头条
0+阅读 · 2022年3月31日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
开放下载!《阿里语音与信号处理技术》精选集
阿里技术
10+阅读 · 2019年6月5日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
21+阅读 · 2018年5月23日
Arxiv
23+阅读 · 2017年3月9日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
视频隐私保护技术综述
专知会员服务
34+阅读 · 2022年1月19日
首篇「多模态摘要」综述论文
专知会员服务
105+阅读 · 2021年9月14日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
专知会员服务
35+阅读 · 2021年2月20日
【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
142+阅读 · 2020年9月6日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
相关资讯
下一代对话系统中的关键技术(下篇)
PaperWeekly
2+阅读 · 2022年4月1日
如何亿点点降低语音识别跨领域、跨语种迁移难度?
微软研究院AI头条
0+阅读 · 2022年3月31日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
开放下载!《阿里语音与信号处理技术》精选集
阿里技术
10+阅读 · 2019年6月5日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员