基于质量参数自适应的360度等距柱面投影视频神经压缩 (Neural Compression of 360-Degree Equirectangular Videos using Quality Parameter Adaptation) - 专知论文

会员服务 ·

0

视频 · 自适应 · 投影 · 参数自适应 · 奇虎 360 ·

Neural Compression of 360-Degree Equirectangular Videos using Quality Parameter Adaptation

翻译：基于质量参数自适应的360度等距柱面投影视频神经压缩

Daichi Arai,Yuichi Kondo,Kyohei Unno,Yasuko Sugito,Yuichi Kusakabe

from arxiv, Picture Coding Symposium (PCS), 2025

This study proposes a practical approach for compressing 360-degree equirectangular videos using pretrained neural video compression (NVC) models. Without requiring additional training or changes in the model architectures, the proposed method extends quantization parameter adaptation techniques from traditional video codecs to NVC, utilizing the spatially varying sampling density in equirectangular projections. We introduce latitude-based adaptive quality parameters through rate-distortion optimization for NVC. The proposed method utilizes vector bank interpolation for latent modulation, enabling flexible adaptation with arbitrary quality parameters and mitigating the limitations caused by rounding errors in the adaptive quantization parameters. Experimental results demonstrate that applying this method to the DCVC-RT framework yields BD-Rate savings of 5.2% in terms of the weighted spherical peak signal-to-noise ratio for JVET class S1 test sequences, with only a 0.3% increase in processing time.

翻译：本研究提出了一种利用预训练神经视频压缩模型压缩360度等距柱面投影视频的实用方法。该方法无需额外训练或改变模型架构，通过利用等距柱面投影中空间变化的采样密度，将传统视频编解码器中的量化参数自适应技术扩展至神经视频压缩。我们通过率失真优化为神经视频压缩引入了基于纬度的自适应质量参数。所提方法利用向量库插值进行潜在特征调制，从而能够灵活适应任意质量参数，并缓解了自适应量化参数中舍入误差带来的限制。实验结果表明，将该方法应用于DCVC-RT框架，在JVET S1类测试序列上，以加权球面峰值信噪比衡量可获得5.2%的BD-Rate节省，而处理时间仅增加0.3%。

0

相关内容

视频

【Erik J Bekkers博士论文】SE(2)中基于亚黎曼几何的视网膜图像分析，Retinal Image Analysis using Sub-Riemannian Geometry in SE(2)

【Erik J Bekkers博士论文】SE(2)中基于亚黎曼几何的视网膜图像分析，Retinal Image Analysis using Sub-Riemannian Geometry in SE(2)

专知会员服务

13+阅读 · 2022年3月27日

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知

12+阅读 · 2020年9月30日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

专知

24+阅读 · 2017年12月17日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向直线超声电机高性能运动控制的分步综合非线性系统辨识建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

High Frequency Matters: Uncertainty Guided Image Compression with Wavelet Diffusion

Arxiv

0+阅读 · 12月22日

Stable EEG Source Estimation for Standardized Kalman Filter using Change Rate Tracking

Arxiv

0+阅读 · 12月20日

Simulation-Driven Deep Learning Framework for Raman Spectral Denoising Under Fluorescence-Dominant Conditions

Arxiv

0+阅读 · 12月19日

Self-Supervised Weighted Image Guided Quantitative MRI Super-Resolution

Arxiv

0+阅读 · 12月19日

Embedding-Driven Data Distillation for 360-Degree IQA With Residual-Aware Refinement

Arxiv

0+阅读 · 12月19日

VIP会员

文章信息

相关主题

参数自适应

相关VIP内容

【Erik J Bekkers博士论文】SE(2)中基于亚黎曼几何的视网膜图像分析，Retinal Image Analysis using Sub-Riemannian Geometry in SE(2)

【Erik J Bekkers博士论文】SE(2)中基于亚黎曼几何的视网膜图像分析，Retinal Image Analysis using Sub-Riemannian Geometry in SE(2)

专知会员服务

13+阅读 · 2022年3月27日

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

【CVPR 2022】长尾视觉数据识别的嵌套式协同学习方法 Nested Collaborative Learning for Long-Tailed Visual Recognition

专知会员服务

13+阅读 · 2022年3月19日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

相关资讯

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知

12+阅读 · 2020年9月30日

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

【华南理工大学ICCV-CVPR2019】基于单一的RGB图像的拓扑感知的三维物体重建

专知

18+阅读 · 2020年1月15日

使用CNN生成图像先验实现场景的盲图像去模糊

使用CNN生成图像先验实现场景的盲图像去模糊

统计学习与视觉计算组

10+阅读 · 2018年6月14日

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

斯坦福Jure Leskovec图表示学习：无监督和有监督方法（附PPT下载）

专知

24+阅读 · 2017年12月17日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

相关论文

High Frequency Matters: Uncertainty Guided Image Compression with Wavelet Diffusion

Arxiv

0+阅读 · 12月22日

Stable EEG Source Estimation for Standardized Kalman Filter using Change Rate Tracking

Arxiv

0+阅读 · 12月20日

Simulation-Driven Deep Learning Framework for Raman Spectral Denoising Under Fluorescence-Dominant Conditions

Arxiv

0+阅读 · 12月19日

Self-Supervised Weighted Image Guided Quantitative MRI Super-Resolution

Arxiv

0+阅读 · 12月19日

Embedding-Driven Data Distillation for 360-Degree IQA With Residual-Aware Refinement

Arxiv

0+阅读 · 12月19日

相关基金

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

彩色/多光谱异源双目视频运动目标分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向直线超声电机高性能运动控制的分步综合非线性系统辨识建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于分层稀疏表示的微动目标ISAR三维层析成像技术

国家自然科学基金

1+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员