面向多媒体信息检索的语音处理关键技术研究 - 专知基金

会员服务 ·

0

非文字语音信息 · 说话人改变检测 ·

2009 年 12 月 31 日

面向多媒体信息检索的语音处理关键技术研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 面向多媒体信息检索的语音处理关键技术研究

项目编号： No.60972132

项目类型： 面上项目

立项/批准年度： 2010

项目学科： 自动化技术、计算机技术

项目作者： 贺前华

作者单位： 华南理工大学

项目金额： 29万元

中文摘要： 多媒体信息已经成为互联网的主体信息之一，目前基于内容的检索技术研究重点是图像、视频及音乐；对语音信息，一般采用语音识别技术将语音转换成文本，然后采用文本检索的方式加以处理。而ASR所得到的转换文本存在识别不准确、集外词、结构信息和非文字信息丢失等多种缺陷。如何直接利用语音信息提高多媒体检索效率和人机交互的友好性没有得到足够的重视。针对这些问题，本课题重点研究1）多媒体中音频分割及分类；2）关键音段确定； 3）说话人信息提取方法及其在信息检索中的应用；4）语音信息和视频信息在多媒体检索中的相互作用方式。本课题有非常明确的应用前景：多媒体检索。理论上也具有很大的挑战性，研究内容日益得到人们的重视，对加快我国信息产业的发展有重要作用。预期发表学术论文10篇，申报专利1项。

中文关键词： 多媒体信息检索；说话人信息分析；非文字语音信息；说话人改变检测；

英文摘要：

英文关键词： Multimedia Retrieval；Speaker information analysis；Non-Lexical Audio；speaker change detection；

成为VIP会员查看完整内容

0

相关内容

非文字语音信息

非文字语音信息

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

面向语义搜索的自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

视频处理与压缩技术

专知会员服务

15+阅读 · 2021年3月26日

【博士论文】搜索引擎中的实体推荐关键技术研究

【博士论文】搜索引擎中的实体推荐关键技术研究

专知会员服务

45+阅读 · 2020年12月9日

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

专知会员服务

138+阅读 · 2020年9月3日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

多媒体推理与认知 | CNCC2021

多媒体推理与认知 | CNCC2021

CCF多媒体专委会

1+阅读 · 2021年12月16日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

中国科学院自动化研究所

73+阅读 · 2017年8月14日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向移动终端的草图式三维造型技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向云计算的图像同态加密与高效检索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于线裁剪的数字视觉信息处理技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向海量图像数据的检索技术的研究

国家自然科学基金

0+阅读 · 2011年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于视感知的图像视频语义获取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于压缩域听觉谱的音频分类与检索算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Vision System of Curling Robots: Thrower and Skip

Arxiv

0+阅读 · 2022年4月20日

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics

Arxiv

0+阅读 · 2022年4月19日

A User Study to Evaluate a Web-based Prototype for Smart Home Internet of Things Device Management

Arxiv

0+阅读 · 2022年4月16日

Calculate the Optimum Threshold for Double Energy Detection Technique in Cognitive Radio Networks (CRNs)

Arxiv

0+阅读 · 2022年4月15日

Fundamentals of Compositional Rewriting Theory

Arxiv

0+阅读 · 2022年4月14日

Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition

Arxiv

10+阅读 · 2018年4月28日

Attention-based Group Recommendation

Arxiv

14+阅读 · 2018年4月18日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

非文字语音信息

说话人改变检测

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关VIP内容

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

面向语义搜索的自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

视频处理与压缩技术

专知会员服务

15+阅读 · 2021年3月26日

【博士论文】搜索引擎中的实体推荐关键技术研究

【博士论文】搜索引擎中的实体推荐关键技术研究

专知会员服务

45+阅读 · 2020年12月9日

面向知识图谱的信息抽取

专知会员服务

202+阅读 · 2020年10月14日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

【硬核课】CMU《多模态机器学习》2020课程，附课件与视频

专知会员服务

138+阅读 · 2020年9月3日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

相关资讯

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

多媒体推理与认知 | CNCC2021

多媒体推理与认知 | CNCC2021

CCF多媒体专委会

1+阅读 · 2021年12月16日

最新综述：跨语言语音合成方法的发展趋势与方向

最新综述：跨语言语音合成方法的发展趋势与方向

PaperWeekly

1+阅读 · 2021年10月8日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

Interspeech 2019 | 基于多模态对齐的语音情感识别

Interspeech 2019 | 基于多模态对齐的语音情感识别

AI科技评论

23+阅读 · 2019年9月21日

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

Interspeech 2019 | 阿里达摩院语音实验室：联合CTC和Transformer的自动中文纠错模型

机器之心

26+阅读 · 2019年9月15日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

中国科学院自动化研究所

73+阅读 · 2017年8月14日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向移动终端的草图式三维造型技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向云计算的图像同态加密与高效检索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于线裁剪的数字视觉信息处理技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向海量图像数据的检索技术的研究

国家自然科学基金

0+阅读 · 2011年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于视感知的图像视频语义获取关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于压缩域听觉谱的音频分类与检索算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Vision System of Curling Robots: Thrower and Skip

Arxiv

0+阅读 · 2022年4月20日

Investigating Data Variance in Evaluations of Automatic Machine Translation Metrics

Arxiv

0+阅读 · 2022年4月19日

A User Study to Evaluate a Web-based Prototype for Smart Home Internet of Things Device Management

Arxiv

0+阅读 · 2022年4月16日

Calculate the Optimum Threshold for Double Energy Detection Technique in Cognitive Radio Networks (CRNs)

Arxiv

0+阅读 · 2022年4月15日

Fundamentals of Compositional Rewriting Theory

Arxiv

0+阅读 · 2022年4月14日

Label-aware Double Transfer Learning for Cross-Specialty Medical Named Entity Recognition

Arxiv

10+阅读 · 2018年4月28日

Attention-based Group Recommendation

Arxiv

14+阅读 · 2018年4月18日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

SpectralNet: Spectral Clustering using Deep Neural Networks

Arxiv

11+阅读 · 2018年1月10日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员