The task of multimodal learning has seen a growing interest recently as it allows for training neural architectures based on different modalities such as vision, text, and audio. One challenge in training such models is that they need to jointly learn semantic concepts and their relationships across different input representations. Capsule networks have been shown to perform well in context of capturing the relation between low-level input features and higher-level concepts. However, capsules have so far mainly been used only in small-scale fully supervised settings due to the resource demand of conventional routing algorithms. We present a new multimodal capsule network that allows us to leverage the strength of capsules in the context of a multimodal learning framework on large amounts of video data. To adapt the capsules to large-scale input data, we propose a novel routing by self-attention mechanism that selects relevant capsules which are then used to generate a final joint multimodal feature representation. This allows not only for robust training with noisy video data, but also to scale up the size of the capsule network compared to traditional routing methods while still being computationally efficient. We evaluate the proposed architecture by pretraining it on a large-scale multimodal video dataset and applying it on four datasets in two challenging downstream tasks. Results show that the proposed multimodal capsule network is not only able to improve results compared to other routing techniques, but also achieves competitive performance on the task of multimodal learning.


翻译:多式联运学习的任务最近引起了越来越多的兴趣,因为它允许在愿景、文本和音频等不同模式的基础上对神经结构进行培训。培训这些模型的一个挑战是,它们需要共同学习语义概念和不同投入代表之间的关系。Capsule网络在捕捉低层次投入特征和较高层次概念之间的关系方面表现良好。然而,由于传统路由算法的资源需求,胶囊目前主要用于小规模的全面监督环境中。我们提出了一个新的多式联运胶囊网络,使我们能够在大量视频数据的多边学习框架中利用胶囊的力量。为了使胶囊适应大规模投入数据,我们提议通过自留机制选择相关的胶囊,选择相关的胶囊,然后用来产生最后的联合多式联运特征代表。由于传统路由算法的资源需求,因此,胶囊目前主要用于对热量视频数据进行强有力的培训,而且比照传统的路由方法扩大胶囊网络网络的大小。我们通过在大规模视频数据数据传输方面进行两项拟议的结构评估,而不是通过对具有竞争力的多层次的多式联运数据测试,因此只能对高层次的多式联运数据系统进行测试,因此只能对高层次的多式联运数据进行测试。

0
下载
关闭预览

相关内容

专知会员服务
20+阅读 · 2021年4月1日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
68+阅读 · 2020年2月29日
专知会员服务
26+阅读 · 2020年2月15日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
Arxiv
6+阅读 · 2019年4月8日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员