音频指纹在音乐检索中的关键技术研究 - 专知基金

会员服务 ·

1

音频识别 · 音频特征 ·

2008 年 12 月 31 日

音频指纹在音乐检索中的关键技术研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 音频指纹在音乐检索中的关键技术研究

项目编号： No.60873255

项目类型： 面上项目

立项/批准年度： 2009

项目学科： 自动化技术、计算机技术

项目作者： 李伟

作者单位： 复旦大学

项目金额： 26万元

中文摘要： 互联网上的海量音乐信息促使产生了进行音乐自动匹配的数字音频指纹技术，但是现阶段该技术的典型算法与人耳识别功能相比仍然存在巨大缺陷。本课题主要贡献是设计了以下三种鲁棒音频特征在严重失真环境下进行音乐识别：(1)在音乐语谱图上计算SIFT描述子作为鲁棒音频特征，在检索片段被严重时间伸缩或变调时仍然能以80%以上的准确率识别数据库中的原始版本；(2)在MP3压缩域半解压状态分别计算MDCT频谱熵和听觉图像上的Zernike矩作为鲁棒音频特征，对一般音频信号处理得到了很强的鲁棒性。三年时间中本研究完全达到了预期目标，在鲁棒音频识别技术方面取得了突出成绩，共发表论文14篇，其中在国际顶级会议ACM MM和ACM SIGIR上发表全文和短文共5篇，EI检索国际重要会议1篇，国内权威期刊1篇，国内半权威学报2篇，核心期刊5篇。此外申请专利1项，毕业研硕士究生3人，获得上海市自然科学二等奖一项排名第三。

中文关键词： 音频识别；鲁棒性；语谱图；音频特征

英文摘要： Recently, numerous music on the Internet has given rise to the technique called "Audio Fingerprinting" which is typically used for automatic music identification. The main contributions of this research are three novel audio features designed for audio identification, i.e. compressed-domain Zernike moment of auditory image, compressed-domain MDCT spectral entropy, and SIFT descriptor of audio spectrogram. The three identification algorithms are rather robust against common signal processing and synchronization distortions, with pretty high identification precision. In this research field, we published 14 technical papers in the past three years, of which five were published in international top conferences as full paper and short papers. Besides, we have applied for one domestic patent, and obtained a second-class natural science prize of Shanghai City. Under the support of this grant, three students graduated and obtained their master degree successfully.

英文关键词： Audio identification; Robustness; Audio feature; Audio spectrogram

成为VIP会员查看完整内容

2

相关内容

音频识别

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

89+阅读 · 2022年2月3日

开课了！CMU《多模态机器学习》2022课程，附课件与视频

开课了！CMU《多模态机器学习》2022课程，附课件与视频

专知会员服务

155+阅读 · 2022年2月1日

智能视频监控关键技术:行人再识别研究综述

智能视频监控关键技术:行人再识别研究综述

专知会员服务

40+阅读 · 2021年12月30日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

视频处理与压缩技术

专知会员服务

36+阅读 · 2021年2月20日

大数据安全技术研究进展

大数据安全技术研究进展

专知会员服务

95+阅读 · 2020年5月2日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

专知会员服务

32+阅读 · 2019年11月8日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

【喜报】CCF多媒体专委会多名委员获得第十一届吴文俊人工智能科学技术奖励

【喜报】CCF多媒体专委会多名委员获得第十一届吴文俊人工智能科学技术奖励

CCF多媒体专委会

0+阅读 · 2022年1月29日

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

【喜报】CCF多媒体专委会多名委员获得中国电子学会科学技术奖励

【喜报】CCF多媒体专委会多名委员获得中国电子学会科学技术奖励

CCF多媒体专委会

1+阅读 · 2022年1月23日

【喜报】CCF多媒体专委会常务委员彭宇新老师当选2021年度CCF杰出演讲者

【喜报】CCF多媒体专委会常务委员彭宇新老师当选2021年度CCF杰出演讲者

CCF多媒体专委会

0+阅读 · 2022年1月20日

ACL Fellow 2021名单出炉！华为刘群、中科院自动化所宗成庆当选！

ACL Fellow 2021名单出炉！华为刘群、中科院自动化所宗成庆当选！

新智元

0+阅读 · 2022年1月8日

2021 ACL Fellow公布：中科院自动化所宗成庆、华为刘群当选

2021 ACL Fellow公布：中科院自动化所宗成庆、华为刘群当选

机器之心

0+阅读 · 2022年1月7日

多媒体推理与认知 | CNCC2021

多媒体推理与认知 | CNCC2021

CCF多媒体专委会

1+阅读 · 2021年12月16日

基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,[InterSpeech2019]昆山杜克大学李明博士

基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,[InterSpeech2019]昆山杜克大学李明博士

专知

15+阅读 · 2019年9月22日

【北大】知识图谱的关键技术及其智能应用

【北大】知识图谱的关键技术及其智能应用

专知

112+阅读 · 2019年9月19日

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

中国科学院自动化研究所

73+阅读 · 2017年8月14日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络敏感视频识别的关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于超声图像的静音语音识别关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于音节模型的音频点播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

维吾尔文手写签名识别与验证的关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多模态信息的高效鲁棒可扩展视频复制检测关键技术及其系统研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向海量图像高速拷贝检测的视觉指纹提取与匹配

国家自然科学基金

0+阅读 · 2010年12月31日

音频信号处理中基于模型的语音与音乐信号分离算法

国家自然科学基金

1+阅读 · 2009年12月31日

基于压缩域听觉谱的音频分类与检索算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

Multi-Level Interaction Reranking with User Behavior History

Arxiv

0+阅读 · 2022年4月20日

Analyzing the Impact of Undersampling on the Benchmarking and Configuration of Evolutionary Algorithms

Arxiv

0+阅读 · 2022年4月20日

Music Source Separation with Generative Flow

Arxiv

0+阅读 · 2022年4月19日

Do Smart Glasses Dream of Sentimental Visions? Deep Emotionship Analysis for Eyewear Devices

Arxiv

0+阅读 · 2022年4月19日

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis

Arxiv

0+阅读 · 2022年4月19日

Quaternion Optimized Model with Sparse Regularization for Color Image Recovery

Arxiv

0+阅读 · 2022年4月19日

Impact of Phase-Noise and Spatial Correlation on Double-RIS-Assisted Multiuser MISO Networks

Arxiv

0+阅读 · 2022年4月17日

Making Hidden Bias Visible: Designing a Feedback Ecosystem for Primary Care Providers

Arxiv

0+阅读 · 2022年4月17日

Proximal nested sampling for high-dimensional Bayesian model selection

Proximal nested sampling for high-dimensional Bayesian model selection

Arxiv

0+阅读 · 2022年4月15日

Multimodal Sentiment Analysis To Explore the Structure of Emotions

Arxiv

19+阅读 · 2018年5月25日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关VIP内容

空间数据智能：概念、技术与挑战

空间数据智能：概念、技术与挑战

专知会员服务

89+阅读 · 2022年2月3日

开课了！CMU《多模态机器学习》2022课程，附课件与视频

开课了！CMU《多模态机器学习》2022课程，附课件与视频

专知会员服务

155+阅读 · 2022年2月1日

智能视频监控关键技术:行人再识别研究综述

智能视频监控关键技术:行人再识别研究综述

专知会员服务

40+阅读 · 2021年12月30日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

视频处理与压缩技术

专知会员服务

36+阅读 · 2021年2月20日

大数据安全技术研究进展

大数据安全技术研究进展

专知会员服务

95+阅读 · 2020年5月2日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

【CCF优秀博士学位论文奖-2019提名】大规模图数据查询处理关键技术研究，东北大学成雨蓉

专知会员服务

32+阅读 · 2019年11月8日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

相关资讯

【喜报】CCF多媒体专委会多名委员获得第十一届吴文俊人工智能科学技术奖励

【喜报】CCF多媒体专委会多名委员获得第十一届吴文俊人工智能科学技术奖励

CCF多媒体专委会

0+阅读 · 2022年1月29日

一文带你了解语音信号处理技术

一文带你了解语音信号处理技术

PaperWeekly

9+阅读 · 2022年1月26日

【喜报】CCF多媒体专委会多名委员获得中国电子学会科学技术奖励

【喜报】CCF多媒体专委会多名委员获得中国电子学会科学技术奖励

CCF多媒体专委会

1+阅读 · 2022年1月23日

【喜报】CCF多媒体专委会常务委员彭宇新老师当选2021年度CCF杰出演讲者

【喜报】CCF多媒体专委会常务委员彭宇新老师当选2021年度CCF杰出演讲者

CCF多媒体专委会

0+阅读 · 2022年1月20日

ACL Fellow 2021名单出炉！华为刘群、中科院自动化所宗成庆当选！

ACL Fellow 2021名单出炉！华为刘群、中科院自动化所宗成庆当选！

新智元

0+阅读 · 2022年1月8日

2021 ACL Fellow公布：中科院自动化所宗成庆、华为刘群当选

2021 ACL Fellow公布：中科院自动化所宗成庆、华为刘群当选

机器之心

0+阅读 · 2022年1月7日

多媒体推理与认知 | CNCC2021

多媒体推理与认知 | CNCC2021

CCF多媒体专委会

1+阅读 · 2021年12月16日

基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,[InterSpeech2019]昆山杜克大学李明博士

基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,[InterSpeech2019]昆山杜克大学李明博士

专知

15+阅读 · 2019年9月22日

【北大】知识图谱的关键技术及其智能应用

【北大】知识图谱的关键技术及其智能应用

专知

112+阅读 · 2019年9月19日

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

【深度】多媒体计算国际团队：从单通道感知到跨媒体认知

中国科学院自动化研究所

73+阅读 · 2017年8月14日

相关基金

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络敏感视频识别的关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于超声图像的静音语音识别关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于音节模型的音频点播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

维吾尔文手写签名识别与验证的关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多模态信息的高效鲁棒可扩展视频复制检测关键技术及其系统研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向海量图像高速拷贝检测的视觉指纹提取与匹配

国家自然科学基金

0+阅读 · 2010年12月31日

音频信号处理中基于模型的语音与音乐信号分离算法

国家自然科学基金

1+阅读 · 2009年12月31日

基于压缩域听觉谱的音频分类与检索算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Multi-Level Interaction Reranking with User Behavior History

Arxiv

0+阅读 · 2022年4月20日

Analyzing the Impact of Undersampling on the Benchmarking and Configuration of Evolutionary Algorithms

Arxiv

0+阅读 · 2022年4月20日

Music Source Separation with Generative Flow

Arxiv

0+阅读 · 2022年4月19日

Do Smart Glasses Dream of Sentimental Visions? Deep Emotionship Analysis for Eyewear Devices

Arxiv

0+阅读 · 2022年4月19日

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis

Arxiv

0+阅读 · 2022年4月19日

Quaternion Optimized Model with Sparse Regularization for Color Image Recovery

Arxiv

0+阅读 · 2022年4月19日

Impact of Phase-Noise and Spatial Correlation on Double-RIS-Assisted Multiuser MISO Networks

Arxiv

0+阅读 · 2022年4月17日

Making Hidden Bias Visible: Designing a Feedback Ecosystem for Primary Care Providers

Arxiv

0+阅读 · 2022年4月17日

Proximal nested sampling for high-dimensional Bayesian model selection

Proximal nested sampling for high-dimensional Bayesian model selection

Arxiv

0+阅读 · 2022年4月15日

Multimodal Sentiment Analysis To Explore the Structure of Emotions

Arxiv

19+阅读 · 2018年5月25日

微信扫码咨询专知VIP会员