项目名称: 面向多媒体信息检索的语音处理关键技术研究
项目编号: No.60972132
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 贺前华
作者单位: 华南理工大学
项目金额: 29万元
中文摘要: 多媒体信息已经成为互联网的主体信息之一,目前基于内容的检索技术研究重点是图像、视频及音乐;对语音信息,一般采用语音识别技术将语音转换成文本,然后采用文本检索的方式加以处理。而ASR所得到的转换文本存在识别不准确、集外词、结构信息和非文字信息丢失等多种缺陷。如何直接利用语音信息提高多媒体检索效率和人机交互的友好性没有得到足够的重视。针对这些问题,本课题重点研究1)多媒体中音频分割及分类;2)关键音段确定; 3)说话人信息提取方法及其在信息检索中的应用;4)语音信息和视频信息在多媒体检索中的相互作用方式。 本课题有非常明确的应用前景:多媒体检索。理论上也具有很大的挑战性,研究内容日益得到人们的重视,对加快我国信息产业的发展有重要作用。预期发表学术论文10篇,申报专利1项。
中文关键词: 多媒体信息检索;说话人信息分析;非文字语音信息;说话人改变检测;
英文摘要:
英文关键词: Multimedia Retrieval;Speaker information analysis;Non-Lexical Audio;speaker change detection;