【CVPR2022】基于序列对比学习的长视频帧方向动作表示 - 专知

会员服务 ·

0

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

2022 年 3 月 30 日 专知

以往关于动作表示学习的研究主要集中在设计各种结构来提取短视频片段的全局表示。相比之下，许多实际应用，如视频对齐，对学习长视频的密集表示有很强的需求。在本文中，我们引入了一种新的对比动作表示学习(CARL)框架，以一种自监督的方式学习基于帧的动作表示，特别是长视频。具体地说，我们介绍了一个简单而有效的视频编码器，它考虑了时空上下文来提取帧方向表示。受自监督学习的最新进展的启发，我们提出了一种新的序列对比损失(SCL)，应用于通过一系列时空数据增强获得的两个相关视图。SCL通过最小化两个增广视图的序列相似度与时间戳距离的先验高斯分布之间的KL散度来优化嵌入空间。在FineGym、PennAction和Pouring 数据集上的实验表明，我们的方法在下游细粒度动作分类方面的表现大大超过了以前的先进技术。令人惊讶的是，尽管没有对成对的视频进行训练，我们的方法在视频对齐和细粒度的帧检索任务中也表现出了出色的性能。代码和模型可以在https://github.com/minghchen/CARL_code上找到。

https://www.zhuanzhi.ai/paper/eed105f3942b2c53b026d1a1793f4be8

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VSCL” 就可以获取《【CVPR2022】基于序列对比学习的长视频帧方向动作表示》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

1

相关内容

动作表示

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知

2+阅读 · 2021年4月16日

【CVPR2021】空间一致性表示学习

【CVPR2021】空间一致性表示学习

专知

0+阅读 · 2021年3月12日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

深度相机下基于全局-局部协作模型的视觉目标跟踪研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于干扰对齐的多小区协作关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Event Transition Planning for Open-ended Text Generation

Arxiv

0+阅读 · 2022年4月20日

OutCast: Outdoor Single-image Relighting with Cast Shadows

Arxiv

0+阅读 · 2022年4月20日

SPTS: Single-Point Text Spotting

Arxiv

0+阅读 · 2022年4月19日

Incremental Prompting: Episodic Memory Prompt for Lifelong Event Detection

Arxiv

0+阅读 · 2022年4月15日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

VIP会员

相关主题

序列对比学习

相关VIP内容

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知

2+阅读 · 2021年4月16日

【CVPR2021】空间一致性表示学习

【CVPR2021】空间一致性表示学习

专知

0+阅读 · 2021年3月12日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

相关基金

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

深度相机下基于全局-局部协作模型的视觉目标跟踪研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于干扰对齐的多小区协作关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Event Transition Planning for Open-ended Text Generation

Arxiv

0+阅读 · 2022年4月20日

OutCast: Outdoor Single-image Relighting with Cast Shadows

Arxiv

0+阅读 · 2022年4月20日

SPTS: Single-Point Text Spotting

Arxiv

0+阅读 · 2022年4月19日

Incremental Prompting: Episodic Memory Prompt for Lifelong Event Detection

Arxiv

0+阅读 · 2022年4月15日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员