VALSE 论文速览第46期：基于多层次特征优化的自监督视频表征学习 - 专知

会员服务 ·

0

VALSE 论文速览第46期：基于多层次特征优化的自监督视频表征学习

2022 年 2 月 1 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自上海交通大学等机构的自监督视频表征学习的工作。该工作由林巍峣教授指导，论文第一作者钱锐同学录制。

论文题目：Enhancing Self-supervised Video Representation Learning via Multi-level Feature Optimization

作者列表：钱锐 (上海交通大学)，李昱希 (上海交通大学，腾讯优图)，刘华斌 (上海交通大学)，John See (Heriot-Watt University)，丁双睿 (上海交通大学)，刘锡安 (浙江大学)，李典 (腾讯PCG)，林巍峣 (上海交通大学)

B站观看网址：

https://www.bilibili.com/video/BV1a44y1p76i/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

自监督视频表征学习的目标是从无标注的视频数据中学习通用可迁移的特征。现有的工作大多从高维语义入手进行建模，但忽略了对通用视频理解非常重要的中低层次表征及视频中丰富的时域关系。为了解决这个问题，本文提出了一个统一的多级特征优化框架，以提高视频表征的泛化能力和时域感知能力。具体地，我们通过简单的实例判别和基于原型的对比学习联合优化高维语义特征，并基于此构建特征分布图，将其作为可靠的自监督信号用于指导中低层级特征的学习。同时，我们基于多级特征设计了一个简单的时间感知模块来增强对不同运动模式的判别。大量的实验表明，本文提出的具有图约束和时间建模的多级特征优化可以大幅提升视频表征的泛化性。

论文信息：

[1] Qian, Rui and Li, Yuxi and Liu, Huabin and See, John and Ding, Shuangrui and Liu, Xian and Li, Dian and Lin, Weiyao. "Enhancing Self-Supervised Video Representation Learning via Multi-Level Feature Optimization." In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. pp. 7990-8001, virtual, October 2021.

论文链接：

[https://openaccess.thecvf.com/content/ICCV2021/html/Qian_Enhancing_Self-Supervised_Video_Representation_Learning_via_Multi-Level_Feature_Optimization_ICCV_2021_paper.html]

代码链接：

[https://github.com/shvdiwnkozbw/Video-Representation-via-Multi-level-Optimization]

视频讲者简介：

钱锐，香港中文大学博士生，研究方向为计算机视觉和机器学习，目前主要研究自监督表征学习和视频理解方面的工作，该工作于上海交通大学完成。

特别鸣谢本次论文速览主要组织者：

月度轮值AC：叶茫 (武汉大学)、刘昊 (宁夏大学)

季度责任AC：杨猛 (中山大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ R群，群号：137634472）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

看到这了，确定不关注下吗？关注下再走吧～

登录查看更多

0

相关内容

视频表征学习

视频表征学习

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

$中科院自动化所19篇AAAI 2022论文速览！从CV\NLP到机器学习$

中科院自动化所19篇AAAI 2022论文速览！从CV\NLP到机器学习

专知会员服务

46+阅读 · 2021年12月21日

【ACL2021】基于外部因果陈述自监督表示学习的事件因果关系识别

专知会员服务

35+阅读 · 2021年8月15日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

专知会员服务

66+阅读 · 2020年10月20日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

VALSE 论文速览第48期：面向第一视角动作识别的交互式原型学习

VALSE 论文速览第48期：面向第一视角动作识别的交互式原型学习

VALSE

1+阅读 · 2022年2月9日

VALSE 论文速览第33期：部分标记下的多器官和肿瘤分割算法

VALSE 论文速览第33期：部分标记下的多器官和肿瘤分割算法

VALSE

3+阅读 · 2021年12月13日

VALSE 论文速览第31期：面向弱监督实例级别商品检索的多模态预训练

VALSE 论文速览第31期：面向弱监督实例级别商品检索的多模态预训练

VALSE

1+阅读 · 2021年12月3日

VALSE 论文速览第30期：基于并行解码的端到端密集视频描述

VALSE 论文速览第30期：基于并行解码的端到端密集视频描述

VALSE

0+阅读 · 2021年12月1日

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE

0+阅读 · 2021年10月21日

VALSE 论文速览第17期：基于对比预测的缺失视图聚类方法

VALSE 论文速览第17期：基于对比预测的缺失视图聚类方法

VALSE

1+阅读 · 2021年10月7日

VALSE 论文速览第16期：基于攻击不变特征防御对抗样本

VALSE 论文速览第16期：基于攻击不变特征防御对抗样本

VALSE

1+阅读 · 2021年9月29日

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE

1+阅读 · 2021年9月17日

VALSE 论文速览第09期：基于多专家一致性建模的医学图像分割校准学习

VALSE 论文速览第09期：基于多专家一致性建模的医学图像分割校准学习

VALSE

0+阅读 · 2021年8月24日

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE

0+阅读 · 2021年8月10日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于双时间尺度优化的多机器人策略自适应与一致性

国家自然科学基金

2+阅读 · 2014年12月31日

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于多核稀疏感知的高光谱图像分类模型选择与特征解译

国家自然科学基金

0+阅读 · 2012年12月31日

面向进化多目标优化的局部自适应学习模型与算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于动态多维特征的网络行为模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于稀疏感知学习的高光谱遥感影像分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于时空信息约束的多视觉多序列动态目标三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

Arxiv

0+阅读 · 2022年4月20日

Development of A Hermite Weighted Compact Nonlinear Scheme based on the Two-Stage Fourth-Order Temporal Accurate Framework

Arxiv

0+阅读 · 2022年4月19日

Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint

Arxiv

0+阅读 · 2022年4月17日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Self-supervised Learning: Generative or Contrastive

Arxiv

25+阅读 · 2021年3月20日

Continual Lifelong Learning with Neural Networks: A Review

Arxiv

14+阅读 · 2019年2月11日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

视频表征学习

上海交通大学

相关VIP内容

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

$中科院自动化所19篇AAAI 2022论文速览！从CV\NLP到机器学习$

中科院自动化所19篇AAAI 2022论文速览！从CV\NLP到机器学习

专知会员服务

46+阅读 · 2021年12月21日

【ACL2021】基于外部因果陈述自监督表示学习的事件因果关系识别

专知会员服务

35+阅读 · 2021年8月15日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知会员服务

17+阅读 · 2021年3月13日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

专知会员服务

66+阅读 · 2020年10月20日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

近期必读的9篇 CVPR 2019【视觉目标跟踪】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

VALSE 论文速览第48期：面向第一视角动作识别的交互式原型学习

VALSE 论文速览第48期：面向第一视角动作识别的交互式原型学习

VALSE

1+阅读 · 2022年2月9日

VALSE 论文速览第33期：部分标记下的多器官和肿瘤分割算法

VALSE 论文速览第33期：部分标记下的多器官和肿瘤分割算法

VALSE

3+阅读 · 2021年12月13日

VALSE 论文速览第31期：面向弱监督实例级别商品检索的多模态预训练

VALSE 论文速览第31期：面向弱监督实例级别商品检索的多模态预训练

VALSE

1+阅读 · 2021年12月3日

VALSE 论文速览第30期：基于并行解码的端到端密集视频描述

VALSE 论文速览第30期：基于并行解码的端到端密集视频描述

VALSE

0+阅读 · 2021年12月1日

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE

0+阅读 · 2021年10月21日

VALSE 论文速览第17期：基于对比预测的缺失视图聚类方法

VALSE 论文速览第17期：基于对比预测的缺失视图聚类方法

VALSE

1+阅读 · 2021年10月7日

VALSE 论文速览第16期：基于攻击不变特征防御对抗样本

VALSE 论文速览第16期：基于攻击不变特征防御对抗样本

VALSE

1+阅读 · 2021年9月29日

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE

1+阅读 · 2021年9月17日

VALSE 论文速览第09期：基于多专家一致性建模的医学图像分割校准学习

VALSE 论文速览第09期：基于多专家一致性建模的医学图像分割校准学习

VALSE

0+阅读 · 2021年8月24日

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE 论文速览第07期：图像风格化鲁棒性的再思考和提升

VALSE

0+阅读 · 2021年8月10日

相关基金

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于结构约束的多模态学习理论和方法

国家自然科学基金

6+阅读 · 2014年12月31日

基于双时间尺度优化的多机器人策略自适应与一致性

国家自然科学基金

2+阅读 · 2014年12月31日

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于多核稀疏感知的高光谱图像分类模型选择与特征解译

国家自然科学基金

0+阅读 · 2012年12月31日

面向进化多目标优化的局部自适应学习模型与算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于动态多维特征的网络行为模型研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于稀疏感知学习的高光谱遥感影像分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于时空信息约束的多视觉多序列动态目标三维重建研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

Arxiv

0+阅读 · 2022年4月20日

Development of A Hermite Weighted Compact Nonlinear Scheme based on the Two-Stage Fourth-Order Temporal Accurate Framework

Arxiv

0+阅读 · 2022年4月19日

Entropy-based Active Learning for Object Detection with Progressive Diversity Constraint

Arxiv

0+阅读 · 2022年4月17日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Self-supervised Learning: Generative or Contrastive

Arxiv

25+阅读 · 2021年3月20日

Continual Lifelong Learning with Neural Networks: A Review

Arxiv

14+阅读 · 2019年2月11日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

大家都在搜

大型语言模型

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员