项目名称: 基于空间相关性的3D音频聚类分组压缩技术研究

项目编号: No.61471271

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 无线电电子学、电信技术

项目作者: 高戈

作者单位: 武汉大学

项目金额: 86万元

中文摘要: 随着MPEG启动3D音频压缩标准化进程,面向直播的3D音频压缩技术已成为3D音频领域的研究热点。与传统音频技术不同,三维音频系统采用大量扬声器重建三维声像,导致3D音频数据随声道数线性增长,迫切需要提高3D音频信号的压缩效率。针对传统3D音频编码技术难以有效地将相关性强的声道信号进行分组编码的问题,提出基于空间聚类特性的3D音频信号动态分组方法,解决传统欠分组和过分组引起的效率下降和音质损失问题;针对传统矩阵编码技术用于3D音频编码时无法有效去除冗余的问题,提出面向动态分组的矩阵编码,实现3D音频声道信号间冗余的高效去除;提出面向动态分组和矩阵编码的感知阈值模型。与现有3D音频压缩技术相比,在运算复杂度相当的情况下,3D音频信号的压缩效率至少提高10%。本项目从编码器架构、声道间信号压缩和声道内信号压缩三方面提高了3D音频压缩效率,预期可以推动3D音频标准制定和产业快速发展。

中文关键词: 信源编码;3D音频压缩;矩阵编码

英文摘要: With the start of 3D audio compression standardization process of MPEG, 3D audio compression technology has become a hot research topic in the field of 3D audio. Different from conventional audio techniques, a large number of loudspeakers are used by three-dimensional audio system to reconstruct sound image, resulting in the linear growth of the volume of 3D audio signal with the number of 3D audio channels, which urgently needs to improve the compression efficiency of the 3D audio signal. To tackle the difficulty of traditional 3D audio technology in clustering strongly correlated channel signals, we propose a dynamic grouping method based on 3D spatial clustering characteristics of the audio signal to solve the efficiency decrease and quality loss issues caused by the so-called under-grouping and over-grouping methods. Moreover, a dynamic grouping oriented matrix encoding method is proposed to deal with the removal of inter-channel signal redundancy, which is difficult to the traditional matrix coding technology. Then, we present a perceptual threshold model for the dynamic grouping and perceptual coding matrix method. With the same computational complexity, the coding efficiency of the new algorithm is at least 10% higher than that of the conventional 3D audio compression technology. The project provides more compression efficiency from the above three aspects of the encoder architecture, inter-channel signal compression and the inner channel signal compression, which improves 3D audio compression efficiency and accelerates the standard formulation of 3D audio and rapid development of the relevant industry .

英文关键词: source coding;3D audio compression;matrix coding

成为VIP会员查看完整内容
0

相关内容

基于深度学习的视频超分辨率重构进展综述
专知会员服务
17+阅读 · 2022年3月7日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
35+阅读 · 2021年2月20日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
TSDB时序数据库时序数据压缩解压技术浅析
阿里技术
2+阅读 · 2021年9月26日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
概览CVPR 2018神经网络图像压缩领域进展
论智
13+阅读 · 2018年6月13日
一文读懂图像压缩算法
七月在线实验室
15+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
40+阅读 · 2018年4月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
31+阅读 · 2021年3月29日
小贴士
相关VIP内容
基于深度学习的视频超分辨率重构进展综述
专知会员服务
17+阅读 · 2022年3月7日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
35+阅读 · 2021年2月20日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
相关资讯
TSDB时序数据库时序数据压缩解压技术浅析
阿里技术
2+阅读 · 2021年9月26日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
概览CVPR 2018神经网络图像压缩领域进展
论智
13+阅读 · 2018年6月13日
一文读懂图像压缩算法
七月在线实验室
15+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
40+阅读 · 2018年4月26日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员