项目名称: 中文自动口语摘要技术研究
项目编号: No.61170197
项目类型: 面上项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 吴及
作者单位: 清华大学
项目金额: 55万元
中文摘要: 面对信息时代海量的多媒体数据,以智能处理手段实现高效的信息检索和数据管理的需求已极为迫切。自动摘要技术能够实现对文档内容的压缩和精炼,是信息快速获取和数据有效管理的关键技术。面向文本的自动摘要在国内外得到广泛关注,而口语文档自动摘要技术的研究则刚刚起步。最直接的口语自动摘要实现方案是先对口语文档进行语音识别,再利用文本摘要技术自动提取口语文档摘要,但这个方案既不利于处理语音识别引入的错误,也不利于挖掘口语文档所携带的大量信息。本课题将超越上述串行框架,充分挖掘口语文档中语音信号和识别得到的文本中所蕴含的各种信息,针对自动提取高性能口语文档摘要的目标进行整体设计和优化。研究内容包括:面向口语自动摘要任务的特征选择,面向不同特征的多分类器设计和参数学习算法,多知识源融合的测度统一的整体模型,从最优化角度研究高效覆盖口语文档内容的摘要提取方法等。本课题的研究对口语文档的理解和使用具有重要价值。
中文关键词: 中文口语摘要;自动摘要技术;摘要句抽取;特征融合;特征表示
英文摘要:
英文关键词: Chinese spoken language summarization;automatic summarization;summary sentence extraction;feature representation;