会员服务 ·

0

TPAMI 2021｜VideoDG:首个视频领域泛化模型

2021 年 12 月 31 日 专知

本文介绍TPAMI 2021的中稿论文：VideoDG: Generalizing Temporal Relations in Videos to Novel Domains。

作者：姚治宇*，王韫博*，王建民，俞士纶，龙明盛

链接：https://www.zhuanzhi.ai/paper/028b77e5d88a032032f2e567580b7d8d

代码：https://github.com/thuml/VideoDG

引言

传统的机器学习一般假设源领域(source domain)和目标领域(target domain)的数据分布符合独立同分布i.i.d假设。然而实际中，源领域和目标领域往往存在领域偏移(domain shift)，即会有分布外Out of Distribution(OOD)情景出现。领域泛化(Domain Generalization)旨在仅通过使用源领域数据进行模型学习来实现在不可见的目标领域的OOD泛化。

领域泛化的研究已经经历了十年的发展，涵盖了各种图像应用，例如图像识别，图像分割等。然而对于视频方面的应用，比如视频动作识别，领域泛化却鲜有涉及。本文致力于探究视频领域泛化(video domain generalization)在动作识别问题中的应用，我们认为训练更具泛化性的动作识别模型对解决视频领域泛化问题至关重要。比如，不同的人执行相同的动作在不同的场景下，模型往往可能无法识别一个执行在新的环境的旧动作。

在本文中，我们首先发现以前模型之所以视频领域泛化能力较差，是因为当泛化到目标领域时，目标时空数据同时存在着空域偏移(spatial domain shift)和时域偏移(temporal domain shift)。空域偏移是由于视频帧的静态特征的变化引起的，如图4所示，相同人做的动作在不同的视角下静态特征是完全不同的。以往的图像域泛化方法可以部分解决这一问题，比如对抗性自适应数据增强方法ADA。不同于图像之间只共享静态物体特征，时空序列之间会共享同一类型的局部时空运动特征，时域偏移往往由于局部时空运动在未知目标领域的意外缺失或错位而产生。如图1所示，运球上篮与踢足球共享“跑步”这一局部运动。

VideoDG的核心贡献主要是两个方面：

VideoDG通过对抗性金字塔网络( APN)在不同的时间尺度上校准局部时空运动关系和全局运动关系特征，利用全局时空运动防止局部时空泛化到错误的方向，兼顾了迁移性与判别性。
VideoDG引入了配套的鲁棒时空金字塔对抗数据增强方法( RADA)训练算法，使用 局部时空运动生成对抗样本来增强源领域并提高了APN对由关系特征衍生的不同时空对抗样本的鲁棒性。

图1. 视频领域泛化问题的求解依赖于局部时空运动关系的正确对齐，而局部时空运动关系可以被具有较长时间分辨性的全局时空运动关系所引导。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RADA” 就可以获取《TPAMI 2021｜VideoDG:首个视频领域泛化模型》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

领域泛化

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

专知会员服务

16+阅读 · 2022年3月15日

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

专知会员服务

9+阅读 · 2022年3月12日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知会员服务

19+阅读 · 2022年2月8日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

专知会员服务

59+阅读 · 2021年3月13日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【TPAMI2020】目标检测中的不平衡问题:综述论文，34页pdf

专知会员服务

55+阅读 · 2020年3月16日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

专知

2+阅读 · 2022年3月15日

首个基于时序平移的视频迁移攻击算法，复旦大学研究入选AAAI 2022

首个基于时序平移的视频迁移攻击算法，复旦大学研究入选AAAI 2022

机器之心

0+阅读 · 2021年12月21日

TPAMI’21 | 跨域人脸表情识别新基准

TPAMI’21 | 跨域人脸表情识别新基准

极市平台

2+阅读 · 2021年12月5日

顶刊TPAMI 2021！跨域人脸表情识别新基准

顶刊TPAMI 2021！跨域人脸表情识别新基准

CVer

2+阅读 · 2021年12月4日

VALSE 论文速览第25期：基于无监督对抗迁移的跨域人脸呈现攻击检测

VALSE 论文速览第25期：基于无监督对抗迁移的跨域人脸呈现攻击检测

VALSE

1+阅读 · 2021年11月10日

从ICCV 2021看域泛化与域自适应最新研究进展

从ICCV 2021看域泛化与域自适应最新研究进展

PaperWeekly

0+阅读 · 2021年10月28日

系统调研160篇文献，领域泛化首篇综述问世，已被IJCAI 2021接收

系统调研160篇文献，领域泛化首篇综述问世，已被IJCAI 2021接收

机器之心

1+阅读 · 2021年4月29日

CVPR 2021 | 阿里达摩院提出半监督视频目标分割新算法，实现SOTA性能

CVPR 2021 | 阿里达摩院提出半监督视频目标分割新算法，实现SOTA性能

机器之心

0+阅读 · 2021年4月24日

CVPR 2019 Oral 论文解读 | 无监督域适应语义分割

CVPR 2019 Oral 论文解读 | 无监督域适应语义分割

AI科技评论

49+阅读 · 2019年5月29日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知

81+阅读 · 2019年4月30日

高分卫星视频运动目标检测与轨迹提取方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向智能视频监控系统中目标理解的长时程深度学习模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合视觉特性的交通视频雾霾去除方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于时空显著特性的行人再识别方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向视频传感器网络基于压缩感知理论的多视点视频压缩技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

用于交互式视频检索的教练式主动学习模型

国家自然科学基金

0+阅读 · 2012年12月31日

图像和视频空/时域相关性建模及其应用

国家自然科学基金

0+阅读 · 2009年12月31日

On the Performance Evaluation of Action Recognition Models on Transcoded Low Quality Videos

Arxiv

0+阅读 · 2022年4月19日

GestureLens: Visual Analysis of Gestures in Presentation Videos

Arxiv

0+阅读 · 2022年4月19日

SVIP: Sequence VerIfication for Procedures in Videos

Arxiv

0+阅读 · 2022年4月17日

Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection

Arxiv

0+阅读 · 2022年4月17日

VideoDG: Generalizing Temporal Relations in Videos to Novel Domains

Arxiv

14+阅读 · 2021年9月17日

Open Domain Generalization with Domain-Augmented Meta-Learning

Arxiv

21+阅读 · 2021年4月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

VIP会员

相关主题

相关VIP内容

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

专知会员服务

16+阅读 · 2022年3月15日

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

专知会员服务

9+阅读 · 2022年3月12日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知会员服务

19+阅读 · 2022年2月8日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

专知会员服务

59+阅读 · 2021年3月13日

【AAAI2021】基于双任务一致性的半监督医学图像分割

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】多领域多任务预演的终身学习

专知会员服务

25+阅读 · 2020年12月16日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【TPAMI2020】目标检测中的不平衡问题:综述论文，34页pdf

专知会员服务

55+阅读 · 2020年3月16日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

【中山大学&腾讯等】可靠图深度学习的最新进展:对抗攻击、固有噪声和分布转移

专知

2+阅读 · 2022年3月15日

首个基于时序平移的视频迁移攻击算法，复旦大学研究入选AAAI 2022

首个基于时序平移的视频迁移攻击算法，复旦大学研究入选AAAI 2022

机器之心

0+阅读 · 2021年12月21日

TPAMI’21 | 跨域人脸表情识别新基准

TPAMI’21 | 跨域人脸表情识别新基准

极市平台

2+阅读 · 2021年12月5日

顶刊TPAMI 2021！跨域人脸表情识别新基准

顶刊TPAMI 2021！跨域人脸表情识别新基准

CVer

2+阅读 · 2021年12月4日

VALSE 论文速览第25期：基于无监督对抗迁移的跨域人脸呈现攻击检测

VALSE 论文速览第25期：基于无监督对抗迁移的跨域人脸呈现攻击检测

VALSE

1+阅读 · 2021年11月10日

从ICCV 2021看域泛化与域自适应最新研究进展

从ICCV 2021看域泛化与域自适应最新研究进展

PaperWeekly

0+阅读 · 2021年10月28日

系统调研160篇文献，领域泛化首篇综述问世，已被IJCAI 2021接收

系统调研160篇文献，领域泛化首篇综述问世，已被IJCAI 2021接收

机器之心

1+阅读 · 2021年4月29日

CVPR 2021 | 阿里达摩院提出半监督视频目标分割新算法，实现SOTA性能

CVPR 2021 | 阿里达摩院提出半监督视频目标分割新算法，实现SOTA性能

机器之心

0+阅读 · 2021年4月24日

CVPR 2019 Oral 论文解读 | 无监督域适应语义分割

CVPR 2019 Oral 论文解读 | 无监督域适应语义分割

AI科技评论

49+阅读 · 2019年5月29日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知

81+阅读 · 2019年4月30日

相关基金

高分卫星视频运动目标检测与轨迹提取方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向智能视频监控系统中目标理解的长时程深度学习模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合视觉特性的交通视频雾霾去除方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于时空显著特性的行人再识别方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向视频传感器网络基于压缩感知理论的多视点视频压缩技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

用于交互式视频检索的教练式主动学习模型

国家自然科学基金

0+阅读 · 2012年12月31日

图像和视频空/时域相关性建模及其应用

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

On the Performance Evaluation of Action Recognition Models on Transcoded Low Quality Videos

Arxiv

0+阅读 · 2022年4月19日

GestureLens: Visual Analysis of Gestures in Presentation Videos

Arxiv

0+阅读 · 2022年4月19日

SVIP: Sequence VerIfication for Procedures in Videos

Arxiv

0+阅读 · 2022年4月17日

Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection

Arxiv

0+阅读 · 2022年4月17日

VideoDG: Generalizing Temporal Relations in Videos to Novel Domains

Arxiv

14+阅读 · 2021年9月17日

Open Domain Generalization with Domain-Augmented Meta-Learning

Arxiv

21+阅读 · 2021年4月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning

Arxiv

64+阅读 · 2020年2月28日

MMKG: Multi-Modal Knowledge Graphs

Arxiv

30+阅读 · 2019年3月13日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

大家都在搜

大型语言模型

国防科技创新

久别重逢话双塔

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员