视频通常有多种形式的数据,如音频、视频、文本(字幕)。理解和建模不同模态之间的交互是视频分析任务的关键,如分类,目标检测,活动识别等。然而,数据模态并不总是相关的——因此,了解模态何时相关并使用它来引导一种模态对另一种模态的影响是至关重要的。视频的另一个显著特征是连续帧之间的连贯性,这是由于视频和音频的连续性,我们称之为时间连贯性。我们展示了如何使用非线性引导的跨模态信号和时间相干性来提高多模态机器学习(ML)模型在视频分析任务(如分类)中的性能。我们在大规模YouTube-8M数据集上的实验表明,我们的方法在视频分类方面显著优于最先进的多模式ML模型。在YouTube-8M数据集上训练的模型,在不需要再训练和微调的情况下,在一个来自实际电视频道的视频片段的内部数据集上也表现出了良好的性能,显示了我们的模型较强的泛化能力。

成为VIP会员查看完整内容
74

相关内容

【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
13+阅读 · 2020年9月25日
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
38+阅读 · 2020年9月9日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【ACMMM2020-北航】协作双路径度量的小样本学习
专知会员服务
28+阅读 · 2020年8月11日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
7篇必读ACM MM 2019论文:图神经网络+多媒体
新智元
43+阅读 · 2019年11月9日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
ICCV | 深度三维残差神经网络:视频理解新突破
微软研究院AI头条
8+阅读 · 2017年10月27日
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关资讯
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
7篇必读ACM MM 2019论文:图神经网络+多媒体
新智元
43+阅读 · 2019年11月9日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
ICCV | 深度三维残差神经网络:视频理解新突破
微软研究院AI头条
8+阅读 · 2017年10月27日
相关论文
Graph Transformer for Graph-to-Sequence Learning
Arxiv
4+阅读 · 2019年11月30日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
6+阅读 · 2019年7月11日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
微信扫码咨询专知VIP会员