【牛津大学博士论文】使用多模态深度学习的视频理解 - 专知VIP

会员服务 ·

23

多模态 · 深度学习 · 视频理解 ·

2021 年 10 月 15 日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们对世界的体验是多模态的，然而深度学习网络传统上是为图像、音频片段或文本等单模态输入而设计和训练的。在这篇论文中，我们提出了策略来利用多模态信息(以视觉、文本、语音和非语音音频的形式)来自动理解以人为中心的视频。本文提出的关键思想是 (i)跨模态监督，(ii)自监督表示学习和(iii)模态融合。在跨模态监督中，来自监督丰富的模态的数据标签被用于学习另一个缺乏监督的目标模态的表示，从而避免了在目标模态域中昂贵的手动注释的需要。这有效地利用了模态之间的冗余或重叠信息。我们将展现该技术在三个不同任务中的效用; 首先，我们使用人脸识别和视觉主动说话人检测来管理一个被称为VoxCeleb的大规模人类语音视听数据集，对其进行训练，产生了最先进的说话人识别模型; 其次，我们训练了一个基于文本的模型来预测仅从转录的语音中的动作标签，并将这些标签转移到相应的视频中。使用这些标签进行的训练使我们能够在完全监督的动作识别模型上表现得更好，而这些模型是通过昂贵的人工监督进行训练的; 第三，我们从为情感识别而训练的人脸模型中提取信息到语音领域，而在语音领域，手动情感标注是昂贵的。本文探讨的第二个关键思想是利用模态冗余进行自监督表示学习。在这里，我们学习了在没有任何人工监督的情况下，在任何一种模式下的视听表示，特别是对于人类的面孔和声音。与现有的表示不同，我们的联合表示支持从音频到视觉的跨模态检索，反之亦然。然后，我们将这项工作扩展到明确地消除习得偏见，从而实现更大的泛化。最后，我们通过开发新的模态融合架构，有效地结合不同模式下的互补信息。通过将视频中的多个模态的信息提取到一个单一的、紧凑的视频表示，我们实现了对可能丢失、损坏、闭塞或具有不同级别背景噪声的单峰输入的鲁棒性。利用这些模型，我们在动作识别和视频文本检索方面都取得了最先进的结果。

https://www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf

成为VIP会员查看完整内容

67

相关内容

多模态

多模态

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CMU博士论文】开放世界目标检测与跟踪，168页pdf

【CMU博士论文】开放世界目标检测与跟踪，168页pdf

专知会员服务

60+阅读 · 2021年6月14日

浙大最新「多模态深度学习」综述论文，35页pdf概述MDL进展

专知会员服务

146+阅读 · 2021年6月8日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

专知会员服务

12+阅读 · 2019年12月8日

【MMM 2019 Tutorials】多模态深度学习（Multimodal Deep Learning），巴塞罗那加泰罗尼亚大学（UPC）的副教授Xavier Giro-i-Nieto

【MMM 2019 Tutorials】多模态深度学习（Multimodal Deep Learning），巴塞罗那加泰罗尼亚大学（UPC）的副教授Xavier Giro-i-Nieto

专知会员服务

7+阅读 · 2019年1月8日

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

AINLP

5+阅读 · 2020年11月16日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

FAIR和牛津大学VGG组最新论文：多模态自监督学习

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

谷歌最新研究，NLP经典BERT模型进军视频领域，看你和面就知会做蛋糕

谷歌最新研究，NLP经典BERT模型进军视频领域，看你和面就知会做蛋糕

极市平台

4+阅读 · 2019年9月22日

BERT模型进军视频领域，看你和面就知会做蛋糕

BERT模型进军视频领域，看你和面就知会做蛋糕

机器之心

10+阅读 · 2019年9月20日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

商汤及联合实验室入选论文重点解读 | ECCV 2018

商汤及联合实验室入选论文重点解读 | ECCV 2018

量子位

4+阅读 · 2018年9月12日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

Class-agnostic Reconstruction of Dynamic Objects from Videos

Arxiv

0+阅读 · 2021年12月3日

Unsupervised Object-Level Representation Learning from Scene Images

Arxiv

0+阅读 · 2021年12月3日

Hyperparameter Selection for Imitation Learning

Arxiv

7+阅读 · 2021年5月25日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design

The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design

Arxiv

7+阅读 · 2019年11月13日

Joint Learning of Named Entity Recognition and Entity Linking

Arxiv

3+阅读 · 2019年7月18日

Good News, Everyone! Context driven entity-aware captioning for news images

Arxiv

6+阅读 · 2019年4月2日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

Exploiting the potential of unlabeled endoscopic video data with self-supervised learning

Arxiv

7+阅读 · 2018年1月26日

VIP会员

相关主题

相关VIP内容

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【CMU博士论文】开放世界目标检测与跟踪，168页pdf

【CMU博士论文】开放世界目标检测与跟踪，168页pdf

专知会员服务

60+阅读 · 2021年6月14日

浙大最新「多模态深度学习」综述论文，35页pdf概述MDL进展

专知会员服务

146+阅读 · 2021年6月8日

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

【Google】视频诱导视觉不变性的自监督学习（Self-Supervised Learning of Video-Induced Visual Invariances），谷歌博士后研究员| Michael Tschannen等

专知会员服务

12+阅读 · 2019年12月8日

【MMM 2019 Tutorials】多模态深度学习（Multimodal Deep Learning），巴塞罗那加泰罗尼亚大学（UPC）的副教授Xavier Giro-i-Nieto

【MMM 2019 Tutorials】多模态深度学习（Multimodal Deep Learning），巴塞罗那加泰罗尼亚大学（UPC）的副教授Xavier Giro-i-Nieto

专知会员服务

7+阅读 · 2019年1月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

AINLP

5+阅读 · 2020年11月16日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

FAIR和牛津大学VGG组最新论文：多模态自监督学习

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

谷歌最新研究，NLP经典BERT模型进军视频领域，看你和面就知会做蛋糕

谷歌最新研究，NLP经典BERT模型进军视频领域，看你和面就知会做蛋糕

极市平台

4+阅读 · 2019年9月22日

BERT模型进军视频领域，看你和面就知会做蛋糕

BERT模型进军视频领域，看你和面就知会做蛋糕

机器之心

10+阅读 · 2019年9月20日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知

57+阅读 · 2018年12月16日

商汤及联合实验室入选论文重点解读 | ECCV 2018

商汤及联合实验室入选论文重点解读 | ECCV 2018

量子位

4+阅读 · 2018年9月12日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

相关论文

Class-agnostic Reconstruction of Dynamic Objects from Videos

Arxiv

0+阅读 · 2021年12月3日

Unsupervised Object-Level Representation Learning from Scene Images

Arxiv

0+阅读 · 2021年12月3日

Hyperparameter Selection for Imitation Learning

Arxiv

7+阅读 · 2021年5月25日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Self-Supervised Learning For Few-Shot Image Classification

Self-Supervised Learning For Few-Shot Image Classification

Arxiv

19+阅读 · 2019年11月14日

The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design

The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design

Arxiv

7+阅读 · 2019年11月13日

Joint Learning of Named Entity Recognition and Entity Linking

Arxiv

3+阅读 · 2019年7月18日

Good News, Everyone! Context driven entity-aware captioning for news images

Arxiv

6+阅读 · 2019年4月2日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

Exploiting the potential of unlabeled endoscopic video data with self-supervised learning

Arxiv

7+阅读 · 2018年1月26日

微信扫码咨询专知VIP会员