跨模态学科知识蒸馏的鲁棒性方法对于非受限视频的应用 (Robust Cross-Modal Knowledge Distillation for Unconstrained Videos) - 专知论文

会员服务 ·

0

模态 · 蒸馏 · 跨模态 · 语义相关性 · 噪声 ·

2023 年 4 月 16 日

Robust Cross-Modal Knowledge Distillation for Unconstrained Videos

翻译：跨模态学科知识蒸馏的鲁棒性方法对于非受限视频的应用

Wenke Xia,Xingjian Li,Andong Deng,Haoyi Xiong,Dejing Dou,Di Hu

Cross-modal distillation has been widely used to transfer knowledge across different modalities, enriching the representation of the target unimodal one. Recent studies highly relate the temporal synchronization between vision and sound to the semantic consistency for cross-modal distillation. However, such semantic consistency from the synchronization is hard to guarantee in unconstrained videos, due to the irrelevant modality noise and differentiated semantic correlation. To this end, we first propose a \textit{Modality Noise Filter} (MNF) module to erase the irrelevant noise in teacher modality with cross-modal context. After this purification, we then design a \textit{Contrastive Semantic Calibration} (CSC) module to adaptively distill useful knowledge for target modality, by referring to the differentiated sample-wise semantic correlation in a contrastive fashion. Extensive experiments show that our method could bring a performance boost compared with other distillation methods in both visual action recognition and video retrieval task. We also extend to the audio tagging task to prove the generalization of our method. The source code is available at \href{https://github.com/GeWu-Lab/cross-modal-distillation}{https://github.com/GeWu-Lab/cross-modal-distillation}.

翻译：跨模态蒸馏被广泛用于知识跨模态传递，丰富目标环境下单模态表示。近期的研究将视觉和声音之间的时间同步与跨模态知识的语义一致性高度关联。由于不相关模态噪声和不同的语义相关性，这种来自同步的语义一致性在非受限视频中很难保证。为此，我们首先提出了一个“模态噪声滤波器”（MNF）模块，通过跨模态上下文来抹去教师模态中的不相关噪声。经过这种纯化之后，我们设计了一个“对比度语义校准”（CSC）模块，通过一种对比度方式来自适应蒸馏目标模态的有用知识，参考样本间的差异化语义相关性。广泛的实验表明，与其他蒸馏方法相比，我们的方法可以在视觉动作识别和视频检索任务中带来性能提升。我们还扩展到音频标签任务来验证我们方法的泛化性。该源代码可在\href{https://github.com/GeWu-Lab/cross-modal-distillation}{https://github.com/GeWu-Lab/cross-modal-distillation}获得。

0

相关内容

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【ACL2021】Weight Distillation：神经网络权重知识迁移方法

专知会员服务

21+阅读 · 2021年8月17日

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

专知会员服务

38+阅读 · 2021年6月21日

近期必读的六篇 ECCV 2020【行人重识别（ReID）】相关论文

近期必读的六篇 ECCV 2020【行人重识别（ReID）】相关论文

专知会员服务

36+阅读 · 2020年8月4日

【知识迁移视觉识别综述论文】Knowledge Transfer in Vision Recognition: A Survey

【知识迁移视觉识别综述论文】Knowledge Transfer in Vision Recognition: A Survey

专知会员服务

30+阅读 · 2020年4月19日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【WSDM2020】超越统计关系：将知识关系整合到多标签音乐风格分类的风格关联中（附pdf）

专知会员服务

18+阅读 · 2019年11月23日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

专知

23+阅读 · 2018年4月24日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

加密域视频可逆数据隐藏关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

TGF-β与内质网应激cross-talk促肺癌细胞上皮间质转化机制及益气除痰方干预作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

多视点视频追踪问题的研究

国家自然科学基金

1+阅读 · 2013年12月31日

分布式视频中运动车辆同一性时空关联检索的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

鲁棒性压缩感知关键技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

某些分布参数系统的能控性与最优控制问题

国家自然科学基金

1+阅读 · 2009年12月31日

基于反向纹理合成的视频编码技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

整合猪miRNA和功能基因表达谱芯片元数据挖掘肌肉生长发育新的调控通路

国家自然科学基金

0+阅读 · 2009年12月31日

基于多尺度几何分析与仿生机理的侧扫声纳图像超分辨率重建

国家自然科学基金

0+阅读 · 2009年12月31日

Privacy Distillation: Reducing Re-identification Risk of Multimodal Diffusion Models

Arxiv

0+阅读 · 2023年6月2日

Multi-Level Knowledge Distillation for Out-of-Distribution Detection in Text

Arxiv

0+阅读 · 2023年6月2日

Learning Music Sequence Representation from Text Supervision

Arxiv

0+阅读 · 2023年5月31日

Exploring Lottery Prompts for Pre-trained Language Models

Arxiv

0+阅读 · 2023年5月31日

Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation

Arxiv

12+阅读 · 2021年12月16日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

Approaches for Enriching and Improving Textual Knowledge Bases

Arxiv

15+阅读 · 2018年4月20日

VIP会员

文章信息

相关主题

语义相关性

相关VIP内容

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【ACL2021】Weight Distillation：神经网络权重知识迁移方法

专知会员服务

21+阅读 · 2021年8月17日

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

如何用好对比学习？CVPR2021谷歌ChenTing《自监督视觉表示学习》报告，附视频与Slides

专知会员服务

38+阅读 · 2021年6月21日

近期必读的六篇 ECCV 2020【行人重识别（ReID）】相关论文

近期必读的六篇 ECCV 2020【行人重识别（ReID）】相关论文

专知会员服务

36+阅读 · 2020年8月4日

【知识迁移视觉识别综述论文】Knowledge Transfer in Vision Recognition: A Survey

【知识迁移视觉识别综述论文】Knowledge Transfer in Vision Recognition: A Survey

专知会员服务

30+阅读 · 2020年4月19日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【WSDM2020】超越统计关系：将知识关系整合到多标签音乐风格分类的风格关联中（附pdf）

专知会员服务

18+阅读 · 2019年11月23日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

征稿 | International Joint Conference on Knowledge Graphs (IJCKG)

开放知识图谱

2+阅读 · 2022年5月20日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

【论文推荐】最新六篇知识图谱相关论文—全局关系嵌入、时序关系提取、对抗学习、远距离关系、时序知识图谱

专知

23+阅读 · 2018年4月24日

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

【论文推荐】最新六篇图像分割相关论文—控制、全卷积网络、子空间表示、多模态图像分割

专知

25+阅读 · 2018年4月15日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Privacy Distillation: Reducing Re-identification Risk of Multimodal Diffusion Models

Arxiv

0+阅读 · 2023年6月2日

Multi-Level Knowledge Distillation for Out-of-Distribution Detection in Text

Arxiv

0+阅读 · 2023年6月2日

Learning Music Sequence Representation from Text Supervision

Arxiv

0+阅读 · 2023年5月31日

Exploring Lottery Prompts for Pre-trained Language Models

Arxiv

0+阅读 · 2023年5月31日

Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation

Arxiv

12+阅读 · 2021年12月16日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

Making Pre-trained Language Models Better Few-shot Learners

Arxiv

14+阅读 · 2020年12月31日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Few-Shot Knowledge Graph Completion

Arxiv

14+阅读 · 2019年11月26日

Approaches for Enriching and Improving Textual Knowledge Bases

Arxiv

15+阅读 · 2018年4月20日

相关基金

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

加密域视频可逆数据隐藏关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

TGF-β与内质网应激cross-talk促肺癌细胞上皮间质转化机制及益气除痰方干预作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

多视点视频追踪问题的研究

国家自然科学基金

1+阅读 · 2013年12月31日

分布式视频中运动车辆同一性时空关联检索的关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

鲁棒性压缩感知关键技术的研究

国家自然科学基金

0+阅读 · 2012年12月31日

某些分布参数系统的能控性与最优控制问题

国家自然科学基金

1+阅读 · 2009年12月31日

基于反向纹理合成的视频编码技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

整合猪miRNA和功能基因表达谱芯片元数据挖掘肌肉生长发育新的调控通路

国家自然科学基金

0+阅读 · 2009年12月31日

基于多尺度几何分析与仿生机理的侧扫声纳图像超分辨率重建

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员