【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion - 专知VIP

会员服务 ·

21

多模态瓶颈Transformer (MBT) · 模态融合 · Google AI · 论文 ·

2022 年 3 月 20 日

【Google AI】多模态瓶颈Transformer(MBT):一种新的模态融合模型，Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人们通过多种感官流与世界互动(例如，我们看到物体，听到声音，读到文字，感觉纹理和味觉)，结合信息，形成感官之间的联系。由于真实世界的数据由各种同时出现的信号组成，如视频帧和音频轨道、web图像及其字幕、教学视频和语音文本，因此在构建和设计多模态机器学习(ML)模型时，很自然地运用了类似的逻辑。

有效的多模态模型具有广泛的应用——如多语言图像检索、未来动作预测和视觉语言导航——其重要性有以下几个原因; 鲁棒性，即在一种或多种模态缺失或损坏时仍能执行的能力，以及模态之间的互补性，即一些信息可能只在一种模态(如音频流)中存在，而在另一种模态(如视频帧)中不存在。虽然多模态融合的主流模式(称为后期融合)包括使用单独的模型对每个模态进行编码，然后在最后一步简单地组合它们的输出表示，但如何有效和高效地组合来自不同模态的信息仍有待研究。

在NeurIPS 2021发表的“多模态融合的注意力瓶颈”中，我们介绍了一种新的基于transformer的视频多模态融合模型，称为多模态瓶颈transformer(MBT)。我们的模型通过两种方式限制潜在单元之间的跨模态注意流:(1)通过紧密的融合瓶颈，迫使模型收集和压缩每个模态中最相关的输入(只与其他模式共享必要的信息)，以及(2)模型的后期层，允许早期层专门化来自单个模态的信息。我们证明，这种方法在视频分类任务上取得了最先进的结果，与普通的多模态transformer模型相比，FLOPs减少了50%。我们还发布了我们的代码作为一个工具，供研究人员在扩展多模态融合工作时使用。

成为VIP会员查看完整内容

57

相关内容

多模态瓶颈Transformer (MBT)

多模态瓶颈Transformer (MBT)

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知会员服务

30+阅读 · 2020年10月9日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

专知会员服务

15+阅读 · 2020年3月21日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

Allen AI提出MERLOT，视频理解领域新SOTA！

Allen AI提出MERLOT，视频理解领域新SOTA！

夕小瑶的卖萌屋

3+阅读 · 2022年2月8日

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

机器之心

1+阅读 · 2021年12月21日

88.8%准确率！FAIR提出：改进多尺度视觉Transformer

88.8%准确率！FAIR提出：改进多尺度视觉Transformer

CVer

0+阅读 · 2021年12月5日

Transformer大升级！谷歌、OpenAI联合推出分层模型，刷榜ImageNet32刷新SOTA

Transformer大升级！谷歌、OpenAI联合推出分层模型，刷榜ImageNet32刷新SOTA

极市平台

0+阅读 · 2021年11月14日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

基于多模态功能磁共振成像的艾灸治疗原发性痛经的中枢镇痛机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

模型可再生的管道缺陷故障诊断理论与技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

不完全数据下广义半参数可加模型的统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

基于遗传神经网络的大地电磁非线性反演

国家自然科学基金

0+阅读 · 2013年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

煤矿井下物联网感知层可控模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于时空流形学习与概率图模型的人体动作识别

国家自然科学基金

2+阅读 · 2012年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

多通道手语信息融合问题的研究

国家自然科学基金

0+阅读 · 2009年12月31日

视频语义向量空间模型与不良视频识别

国家自然科学基金

1+阅读 · 2008年12月31日

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Arxiv

0+阅读 · 2022年4月18日

VDTR: Video Deblurring with Transformer

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

多模态瓶颈Transformer (MBT)

相关VIP内容

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

【CVPR 2022】基于灵活模态Transformer的人脸防伪 FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

专知会员服务

17+阅读 · 2022年3月19日

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

【CVPR 2022】【视频检索用多模态融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval

专知会员服务

29+阅读 · 2022年3月6日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知会员服务

30+阅读 · 2020年10月9日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

专知会员服务

15+阅读 · 2020年3月21日

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您，附论文代码

专知会员服务

85+阅读 · 2020年2月27日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

热门VIP内容

开通专知VIP会员享更多权益服务

模型提取攻击与防御的系统综述：最新进展与展望

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

【CMU博士论文】用于物理模拟的高效深度学习模型

大模型解决方案白皮书：社交陪伴场景全流程落地指南

相关资讯

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

Allen AI提出MERLOT，视频理解领域新SOTA！

Allen AI提出MERLOT，视频理解领域新SOTA！

夕小瑶的卖萌屋

3+阅读 · 2022年2月8日

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

机器之心

1+阅读 · 2021年12月21日

88.8%准确率！FAIR提出：改进多尺度视觉Transformer

88.8%准确率！FAIR提出：改进多尺度视觉Transformer

CVer

0+阅读 · 2021年12月5日

Transformer大升级！谷歌、OpenAI联合推出分层模型，刷榜ImageNet32刷新SOTA

Transformer大升级！谷歌、OpenAI联合推出分层模型，刷榜ImageNet32刷新SOTA

极市平台

0+阅读 · 2021年11月14日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

11+阅读 · 2019年1月8日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

相关基金

基于多模态功能磁共振成像的艾灸治疗原发性痛经的中枢镇痛机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

模型可再生的管道缺陷故障诊断理论与技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

不完全数据下广义半参数可加模型的统计推断

国家自然科学基金

0+阅读 · 2013年12月31日

基于遗传神经网络的大地电磁非线性反演

国家自然科学基金

0+阅读 · 2013年12月31日

融合语音产生机理与统计声学建模的层次化语音合成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

煤矿井下物联网感知层可控模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于时空流形学习与概率图模型的人体动作识别

国家自然科学基金

2+阅读 · 2012年12月31日

基于多通道体全息光学相关的遥感图像多维线/角位移测量技术

国家自然科学基金

0+阅读 · 2011年12月31日

多通道手语信息融合问题的研究

国家自然科学基金

0+阅读 · 2009年12月31日

视频语义向量空间模型与不良视频识别

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Arxiv

0+阅读 · 2022年4月18日

VDTR: Video Deblurring with Transformer

Arxiv

0+阅读 · 2022年4月17日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

微信扫码咨询专知VIP会员