项目名称: 基于观测图像的发音器官运动合成研究
项目编号: No.61175016
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 魏建国
作者单位: 天津大学
项目金额: 59万元
中文摘要: 发音器官运动的可视化是进行语音学习和语音康复指导的重要辅助手段。目前可视化语音合成主要包括可见发音器官,本课题是要基于观测图像来同时合成可见及不可见发音器官运动。声道中不可见发音器官如舌头,上颚等,其数据采集非常困难并涉及多模态数据的同步与融合。本研究将利用由超声仪、高速摄像头等设备组成的多模态数据采集系统,记录发音器官的运动,并建立保证各个模态数据间同步和融合的方法。利用语音学知识作为约束来解决从高噪声的超声图像中自动提取发音器官边界等特征的难题。利用生理发音模型用仿真拟合的方法从超声图像中重构完整声道形状。最后,利用隐马尔科夫模型生成的参数轨迹来进行图像拼接单元的选取,合成基于观测图像的发音器官运动视频。
中文关键词: 语音产生;语音合成;发音运动;声道模型;超声图像处理
英文摘要:
英文关键词: Speech production;Speech synthesis;Articulatory movement;Vocal tract model;Ultrasound image processing