流媒体视频模型 (Streaming Video Model) - 专知论文

会员服务 ·

0

视频 · 时空特征 · 动作识别 · 视频理解 · 序列 ·

2023 年 3 月 30 日

Streaming Video Model

翻译：流媒体视频模型

Yucheng Zhao,Chong Luo,Chuanxin Tang,Dongdong Chen,Noel Codella,Zheng-Jun Zha

from arxiv, Accepted by CVPR'23

Video understanding tasks have traditionally been modeled by two separate architectures, specially tailored for two distinct tasks. Sequence-based video tasks, such as action recognition, use a video backbone to directly extract spatiotemporal features, while frame-based video tasks, such as multiple object tracking (MOT), rely on single fixed-image backbone to extract spatial features. In contrast, we propose to unify video understanding tasks into one novel streaming video architecture, referred to as Streaming Vision Transformer (S-ViT). S-ViT first produces frame-level features with a memory-enabled temporally-aware spatial encoder to serve the frame-based video tasks. Then the frame features are input into a task-related temporal decoder to obtain spatiotemporal features for sequence-based tasks. The efficiency and efficacy of S-ViT is demonstrated by the state-of-the-art accuracy in the sequence-based action recognition task and the competitive advantage over conventional architecture in the frame-based MOT task. We believe that the concept of streaming video model and the implementation of S-ViT are solid steps towards a unified deep learning architecture for video understanding. Code will be available at https://github.com/yuzhms/Streaming-Video-Model.

翻译：视频理解任务传统上可以通过两种不同的体系结构来建模，分别针对两个不同的任务。基于序列的视频任务（例如动作识别）使用视频主干直接提取时空特征，而基于帧的视频任务（例如多目标跟踪）则依赖单一的固定图像主干提取空间特征。相比之下，我们提出将视频理解任务统一为一种新颖的流媒体视频架构，称为 Streaming Vision Transformer（S-ViT）。S-ViT 首先使用具有内存的时间感知的空间编码器生成帧级特征，以服务于基于帧的视频任务。然后，将帧特征输入任务相关的时间解码器，以获取基于序列的任务的时空特征。S-ViT 的效率和有效性可通过在基于序列的动作识别任务中达到最先进的准确性和在基于帧的 MOT 任务中的竞争优势得到证明。我们认为流媒体视频模型的概念和 S-ViT 的实现是迈向统一深度学习架构的坚实步伐。代码将在 https://github.com/yuzhms/Streaming-Video-Model 上提供。

0

相关内容

视频

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

专知会员服务

29+阅读 · 2019年10月13日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

极市平台

1+阅读 · 2022年11月1日

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

机器之心

2+阅读 · 2022年9月30日

谷歌、MIT「迭代共同认证」视频问答模型：SOTA性能，算力少用80%

谷歌、MIT「迭代共同认证」视频问答模型：SOTA性能，算力少用80%

新智元

0+阅读 · 2022年8月16日

ICLR2019最佳论文出炉

ICLR2019最佳论文出炉

专知

12+阅读 · 2019年5月6日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

microRNA在缺血再灌注致急性肾损伤中的作用及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向屏幕视频的编码技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

调节性B细胞在牙龈间充质干细胞诱导胰岛移植耐受中的作用及机制

国家自然科学基金

0+阅读 · 2013年12月31日

基于访问特征分析的流媒体存储系统节能方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

MicroRNA-21通过对T细胞的基因调控抑制角膜移植排斥的研究

国家自然科学基金

0+阅读 · 2012年12月31日

HEVC标准框架下面向复合内容的屏幕视频编码

国家自然科学基金

0+阅读 · 2012年12月31日

基于影子系统的流媒体直播平台

国家自然科学基金

1+阅读 · 2012年12月31日

基于超高分辨率视频的HEVC低复杂度模型和方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

干细胞移植诱导产生调节性T细胞在同种异体心脏移植中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

基于结构分析的视频卡通风格绘制技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Any-to-Any Generation via Composable Diffusion

Arxiv

1+阅读 · 2023年5月19日

Incomplete Multi-view Clustering via Diffusion Completion

Arxiv

0+阅读 · 2023年5月19日

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Arxiv

0+阅读 · 2023年5月18日

IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame Interpolation with Events

Arxiv

0+阅读 · 2023年5月18日

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging

Arxiv

0+阅读 · 2023年5月18日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

【文本生成现代方法】Modern Methods for Text Generation

【文本生成现代方法】Modern Methods for Text Generation

专知会员服务

44+阅读 · 2020年9月11日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

专知会员服务

29+阅读 · 2019年10月13日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

NeurIPS 2022｜VideoMAE: 简单高效的视频自监督预训练新范式

极市平台

1+阅读 · 2022年11月1日

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

机器之心

2+阅读 · 2022年9月30日

谷歌、MIT「迭代共同认证」视频问答模型：SOTA性能，算力少用80%

谷歌、MIT「迭代共同认证」视频问答模型：SOTA性能，算力少用80%

新智元

0+阅读 · 2022年8月16日

ICLR2019最佳论文出炉

ICLR2019最佳论文出炉

专知

12+阅读 · 2019年5月6日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

Any-to-Any Generation via Composable Diffusion

Arxiv

1+阅读 · 2023年5月19日

Incomplete Multi-view Clustering via Diffusion Completion

Arxiv

0+阅读 · 2023年5月19日

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Arxiv

0+阅读 · 2023年5月18日

IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame Interpolation with Events

Arxiv

0+阅读 · 2023年5月18日

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging

Arxiv

0+阅读 · 2023年5月18日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

Unifying Vision-and-Language Tasks via Text Generation

Arxiv

10+阅读 · 2021年2月4日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

相关基金

microRNA在缺血再灌注致急性肾损伤中的作用及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向屏幕视频的编码技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

调节性B细胞在牙龈间充质干细胞诱导胰岛移植耐受中的作用及机制

国家自然科学基金

0+阅读 · 2013年12月31日

基于访问特征分析的流媒体存储系统节能方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

MicroRNA-21通过对T细胞的基因调控抑制角膜移植排斥的研究

国家自然科学基金

0+阅读 · 2012年12月31日

HEVC标准框架下面向复合内容的屏幕视频编码

国家自然科学基金

0+阅读 · 2012年12月31日

基于影子系统的流媒体直播平台

国家自然科学基金

1+阅读 · 2012年12月31日

基于超高分辨率视频的HEVC低复杂度模型和方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

干细胞移植诱导产生调节性T细胞在同种异体心脏移植中的作用

国家自然科学基金

0+阅读 · 2009年12月31日

基于结构分析的视频卡通风格绘制技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员