【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解 - 专知VIP

会员服务 ·

10

ACM Multimedia 2020 · 视频理解 · 跨模态检索 · 注意力机制 · Transformer ·

2020 年 8 月 30 日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视频通常有多种形式的数据，如音频、视频、文本(字幕)。理解和建模不同模态之间的交互是视频分析任务的关键，如分类，目标检测，活动识别等。然而，数据模态并不总是相关的——因此，了解模态何时相关并使用它来引导一种模态对另一种模态的影响是至关重要的。视频的另一个显著特征是连续帧之间的连贯性，这是由于视频和音频的连续性，我们称之为时间连贯性。我们展示了如何使用非线性引导的跨模态信号和时间相干性来提高多模态机器学习(ML)模型在视频分析任务(如分类)中的性能。我们在大规模YouTube-8M数据集上的实验表明，我们的方法在视频分类方面显著优于最先进的多模式ML模型。在YouTube-8M数据集上训练的模型，在不需要再训练和微调的情况下，在一个来自实际电视频道的视频片段的内部数据集上也表现出了良好的性能，显示了我们的模型较强的泛化能力。

成为VIP会员查看完整内容

75

相关内容

ACM Multimedia 2020

ACM Multimedia 2020

【ACMMM2020】小规模行人检测的自模拟学习

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

ICCV | 深度三维残差神经网络：视频理解新突破

ICCV | 深度三维残差神经网络：视频理解新突破

微软研究院AI头条

8+阅读 · 2017年10月27日

Graph Transformer for Graph-to-Sequence Learning

Graph Transformer for Graph-to-Sequence Learning

Arxiv

4+阅读 · 2019年11月30日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

VIP会员

相关主题

ACM Multimedia 2020

跨模态检索

注意力机制

相关VIP内容

【ACMMM2020】小规模行人检测的自模拟学习

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

AAAI 2019 | 百度、MIT等提出StNet：局部+全局的视频时空联合建模

机器之心

3+阅读 · 2019年1月28日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

CVPR 2018 | 自监督对抗哈希SSAH：当前最佳的跨模态检索框架

机器之心

7+阅读 · 2018年4月14日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

ICCV | 深度三维残差神经网络：视频理解新突破

ICCV | 深度三维残差神经网络：视频理解新突破

微软研究院AI头条

8+阅读 · 2017年10月27日

相关论文

Graph Transformer for Graph-to-Sequence Learning

Graph Transformer for Graph-to-Sequence Learning

Arxiv

4+阅读 · 2019年11月30日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning

Arxiv

6+阅读 · 2018年4月15日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

微信扫码咨询专知VIP会员