【CVPR2022】基于压缩域的端到端通用事件表示学习 - 专知VIP

会员服务 ·

2

CVPR 2022 · 事件表示学习 · 视频处理 ·

2022 年 4 月 24 日

【CVPR2022】基于压缩域的端到端通用事件表示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基于压缩域的端到端通用事件表示学习

End-to-End Compressed Video Representation Learning for Generic Event Boundary Detection**

这篇工作由字节跳动智能创作团队和中国科学院大学、中国科学院软件研究所共同完成。传统的视频处理算法需要对视频进行解码，在解码后的 RGB 帧上进行训练和推理。然而视频解码本身需要占用比较可观的计算资源，并且视频相邻帧之间包含了大量的冗余信息。

另外在视频编码格式中的运动向量（Motion Vector）和残差（Residual）包含了视频的运动信息，这些信息能够为更好地理解视频提供更多帮助。基于上述两点考虑，文章提出了一种在视频压缩域（Compressed Domain）上进行端到端通用事件检测（GEBD）的解决方案，希望能够使用视频压缩域上的解码中间信息来对非关键帧进行快速高质量的特征提取。

为此，论文提出了 SCCP（Spatial Channel Compressed Encoder）模块。对于关键帧，在完全解码后使用常规骨干网络提取特征；对于非关键帧，通过使用运动向量和残差以及对应的关键帧特征在轻量级的网络上提取非关键帧的高质量特征；同时利用 Temporal Contrasitive 模块实现端到端的训练和推理。

实验证明在保持和传统完全解码方法精度相同的前提下，我们的方法在模型上的提速 4.5 倍。

arXiv: https://arxiv.org/abs/2203.15336

成为VIP会员查看完整内容

9

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR2022】循环动态嵌入的视频目标分割

【CVPR2022】循环动态嵌入的视频目标分割

专知会员服务

19+阅读 · 2022年5月16日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知

1+阅读 · 2022年4月22日

CVPR22｜DDM-Net：端到端的通用事件边界检测模型，prepared for 更精细的视频理解

CVPR22｜DDM-Net：端到端的通用事件边界检测模型，prepared for 更精细的视频理解

极市平台

1+阅读 · 2022年4月8日

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式

CVer

0+阅读 · 2022年3月8日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩感知的分布式无线网络研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于压缩感知的点云数据压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于压缩采样的低复杂度视频编码理论与技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Unsupervised and Few-shot Parsing from Pretrained Language Models

Unsupervised and Few-shot Parsing from Pretrained Language Models

Arxiv

0+阅读 · 2022年6月10日

Object-Region Video Transformers

Arxiv

0+阅读 · 2022年6月9日

SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition

Arxiv

12+阅读 · 2021年5月30日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

VIP会员

相关主题

事件表示学习

相关VIP内容

【CVPR2022】循环动态嵌入的视频目标分割

【CVPR2022】循环动态嵌入的视频目标分割

专知会员服务

19+阅读 · 2022年5月16日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

星链与未来战争

《黑蜂（Black Hummingbird）微型无人机》

《全球地缘政治环境中的反无人机系统互操作性》252页

《美国：为自动驾驶汽车铺平道路——未来出行已来》最新43页报告

相关资讯

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知

1+阅读 · 2022年4月22日

CVPR22｜DDM-Net：端到端的通用事件边界检测模型，prepared for 更精细的视频理解

CVPR22｜DDM-Net：端到端的通用事件边界检测模型，prepared for 更精细的视频理解

极市平台

1+阅读 · 2022年4月8日

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式

CVPR 2022 | 南大&腾出提出ST++: 半监督语义分割中更优的自训练范式

CVer

0+阅读 · 2022年3月8日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

SFFAI分享 | 连政：端到端语音合成【附PPT与视频资料】

人工智能前沿讲习班

14+阅读 · 2019年6月16日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于压缩感知的分布式无线网络研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于压缩感知的点云数据压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于压缩采样的低复杂度视频编码理论与技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Unsupervised and Few-shot Parsing from Pretrained Language Models

Unsupervised and Few-shot Parsing from Pretrained Language Models

Arxiv

0+阅读 · 2022年6月10日

Object-Region Video Transformers

Arxiv

0+阅读 · 2022年6月9日

SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition

Arxiv

12+阅读 · 2021年5月30日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

Towards Understanding and Answering Multi-Sentence Recommendation Questions on Tourism

Arxiv

15+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员