项目名称: 基于超声图像的静音语音识别关键技术研究

项目编号: No.61304250

项目类型: 青年科学基金项目

立项/批准年度: 2014

项目学科: 自动化技术、计算机技术

项目作者: 路文焕

作者单位: 天津大学

项目金额: 26万元

中文摘要: 基于发音器官的运动来识别语音(静音语音识别)可应用到广泛的领域,如识别喉切除的病人说话;在会场及电影院等需要保持静音或者隐私的场所不出声音只运动发音器官来打电话;再比如在高噪声环境中进行语音识别等。本课题将用超声仪结合摄像头来采集说话人的发音器官运动,基于唇部运动图像及舌头运动图像来获取发音器官运动,从而识别相应的语音。本课题将基于实现静音语音识别中的几个关键技术点来展开研究。首先,将利用有限波尔兹曼机通过非监督学习对摄像机记录的唇部运动图像及用超声仪记录的舌头运动图像分别进行特征提取及非线性的降维。为了实现多模态发音运动数据的融合,本课题利用多个有限波尔兹曼机搭建一个深度神经网络来对多通道、多模态的发音运动数据进行数据融合研究。基于多模态融合获得的发音运动数据特征,利用隐马尔科夫模型进行静音语音识别研究。本课题将在发音运动特征提取、多通道数据融合、发音运动识别等方面有创新性成果。

中文关键词: 超声图像;语音识别;语音生成;发音运动;深度学习

英文摘要: Speech recognition based on articulator movement (silent speech recognition)can be applied widely in many areas, such as speech recognition for patients with laryngectomy;making calls but speaking without sound in the situations like venue and cinemas where we need to keep silent or privacy,speech recognition in high-noise environments and so on. This project will use ultrasound machine and cameras to acquire images about speaker's articulator and recognize articulator's movement to get corresponding speech by the images. The research will focus on several key technical points about silent speech recognition. First, we will use constrained Boltzmann machine and unsupervised learning to extract features and decrease dimension nonlinearly for images about lips and tongues movements recorded by camera and ultrasonund machine,respectively. The research uses multiple constrained Boltzmann machines to build a deep neural network to fuse multi-channel and multi-modal data.We will use hidden Markov model in silent speech recognition by the characteristics derived from the fusion of multi-modal data.In the research, there will be innovative achievements in the feature extraction, multi-channel data fusion, articulator recognition and so on.

英文关键词: Ultrasound Image;Speech Recognition;Speech Production;Articulation;Deep learning

成为VIP会员查看完整内容
1

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
专知会员服务
29+阅读 · 2021年8月16日
专知会员服务
38+阅读 · 2021年3月29日
专知会员服务
61+阅读 · 2021年3月6日
专知会员服务
36+阅读 · 2020年12月14日
专知会员服务
142+阅读 · 2020年9月6日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
语音识别的快速纠错模型FastCorrect系列来了!
微软研究院AI头条
1+阅读 · 2022年3月22日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
小贴士
相关VIP内容
军事知识图谱构建技术
专知会员服务
125+阅读 · 2022年4月8日
专知会员服务
29+阅读 · 2021年8月16日
专知会员服务
38+阅读 · 2021年3月29日
专知会员服务
61+阅读 · 2021年3月6日
专知会员服务
36+阅读 · 2020年12月14日
专知会员服务
142+阅读 · 2020年9月6日
基于深度学习的手语识别综述
专知会员服务
46+阅读 · 2020年5月18日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
相关资讯
语音识别的快速纠错模型FastCorrect系列来了!
微软研究院AI头条
1+阅读 · 2022年3月22日
一文带你了解语音信号处理技术
PaperWeekly
9+阅读 · 2022年1月26日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
Interspeech 2019 | 基于多模态对齐的语音情感识别
AI科技评论
23+阅读 · 2019年9月21日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员