项目名称: 基于内在与潜在语义特征的声音段落级语义识别方法研究

项目编号: No.61471145

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 无线电电子学、电信技术

项目作者: 韩纪庆

作者单位: 哈尔滨工业大学

项目金额: 86万元

中文摘要: 非语音声音的语义识别是声音感知与理解研究的核心内容之一。然而目前这方面的研究工作,无论是声学事件检测还是计算场景分析大多只关注于声音中局部声学对象的低层语义识别问题,缺乏对声音段落(本项目中指一定时长的声音)整体语义的识别研究。声音段落级语义识别是一个新兴的研究方向,还有许多问题亟待解决。本项目基于声音的内在和潜在语义特征来识别声音段落的整体语义。其中,内在语义是指可以直接依据声音段落本身内容来获得的语义,潜在语义是指必须借助人类经验知识从若干相近声音段落中凝练出的抽象语义。项目的主要研究内容包括:适合声音段落语义特征表示与提取的码本构建与优化、声音段落的内在与潜在语义特征提取、能提供更多语义识别先验知识的声音背景信息提取,以及结合上述两类语义特征和先验知识的声音段落整体语义识别。本项目的研究工作对提高计算机声音的认知能力,进而推动其走向现实应用具有重要的理论意义和实用价值。

中文关键词: 声音段落;语义分析;内在语义;潜在语义

英文摘要: The semantic recognition of a sound (non-speech) is one of the core contents of the research on perceiving and understanding a sound. However, most researches on computational auditory scene analysis and acoustic event detection only focus on the recognition of local acoustic objects in the low-level semantic, and rarely explore on the recognition of a whole sound segment, which refers to a sound with the given duration in this project, in a global semantic level. As a novel research, the segment-level semantic recognition of a sound has many difficult problems which require to be solved. In this project, the segment-level semantic recognition is carried out based on the extraction of the internal and latent semantic features. The internal semantic can be directly obtained from the context of a sound segment, and the latent semantic can be obtained based on extracting the abstract information from several similar sound segments labled with human experience and knowledge. The main work in this project includes constructing and optimizing a suitable codebook for representing semantic feature well, extracting the internal and latent semantic features respectively, providing more available prior knowledge based on the background information of a sound segment, and recognizing the whole semantic from a sound segment by comprehensively utilizing the above two types of features and the prior knowledge. This research not only has important theoretical significance but also has practical value in improving cognitive ability of sound for computers and in promoting their real applications.

英文关键词: Sound Segment;Semantic Analysis;Internal Semantic;Latent Semantic

成为VIP会员查看完整内容
0

相关内容

多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
个性化学习推荐研究综述
专知会员服务
58+阅读 · 2022年2月2日
开课了!CMU《多模态机器学习》2022课程,附课件与视频
专知会员服务
153+阅读 · 2022年2月1日
从视频到语言: 视频标题生成与描述研究综述
专知会员服务
19+阅读 · 2022年1月8日
专知会员服务
55+阅读 · 2020年12月20日
头脑风暴,职场新人为什么都不说话?
人人都是产品经理
0+阅读 · 2021年12月9日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
赛尔笔记 | 对比学习
哈工大SCIR
0+阅读 · 2021年7月27日
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
情感计算综述
人工智能学家
32+阅读 · 2019年4月6日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
28+阅读 · 2021年10月1日
小贴士
相关VIP内容
多语言语音识别声学模型建模方法最新进展
专知会员服务
32+阅读 · 2022年2月7日
空间数据智能:概念、技术与挑战
专知会员服务
85+阅读 · 2022年2月3日
个性化学习推荐研究综述
专知会员服务
58+阅读 · 2022年2月2日
开课了!CMU《多模态机器学习》2022课程,附课件与视频
专知会员服务
153+阅读 · 2022年2月1日
从视频到语言: 视频标题生成与描述研究综述
专知会员服务
19+阅读 · 2022年1月8日
专知会员服务
55+阅读 · 2020年12月20日
相关资讯
头脑风暴,职场新人为什么都不说话?
人人都是产品经理
0+阅读 · 2021年12月9日
语音合成:模拟最像人类声音的系统
PaperWeekly
2+阅读 · 2021年11月30日
赛尔笔记 | 对比学习
哈工大SCIR
0+阅读 · 2021年7月27日
SFFAI分享 | 黄健:语音情感识别【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2019年6月11日
情感计算综述
人工智能学家
32+阅读 · 2019年4月6日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员