声音图片 多感知论文

2018 年 8 月 15 日 CreateAMind
https://arxiv.org/abs/1805.11264

https://www.groundai.com/project/disentangling-by-partitioning-a-representation-learning-framework-for-multimodal-sensory-data/

视觉跟imu ,马路牙子开上去可不行,视觉跟雷达的深度信息。



Disentangling by Partitioning: A Representation Learning Framework for  Multimodal Sensory Data

Wei-Ning Hsu, James Glass

(Submitted on 29 May 2018)

Multimodal sensory data resembles the form of information perceived by humans for learning, and are easy to obtain in large quantities. Compared to unimodal data, synchronization of concepts between modalities in such data provides supervision for disentangling the underlying explanatory factors of each modality. Previous work leveraging multimodal data has mainly focused on retaining only the modality-invariant factors while discarding the rest. In this paper, we present a partitioned variational autoencoder (PVAE) and several training objectives to learn disentangled representations, which encode not only the shared factors, but also modality-dependent ones, into separate latent variables. Specifically, PVAE integrates a variational inference framework and a multimodal generative model that partitions the explanatory factors and conditions only on the relevant subset of them for generation. We evaluate our model on two parallel speech/image datasets, and demonstrate its ability to learn disentangled representations by qualitatively exploring within-modality and cross-modality conditional generation with semantics and styles specified by examples. For quantitative analysis, we evaluate the classification accuracy of automatically discovered semantic units. Our PVAE can achieve over 99% accuracy on both modalities.













Ambient Sound Provides Supervision for Visual Learning  https://arxiv.org/pdf/1608.07017.pdf

In this work, we show that a model trained to predict held-out sound from video frames learns a visual representation that conveys semantically meaningful information. We formulate our sound-prediction task as a classification problem, in which we train a convolutional neural network (CNN) to predict a statistical summary of the sound that occurred at the time a video frame was recorded. 



https://arxiv.org/abs/1706.05137  

One Model To Learn Them All



https://arxiv.org/abs/1706.00932   

See, Hear, and Read: Deep Aligned Representations

Firstly, we use an unsu- pervised method that leverages the natural synchronization between modalities to learn an alignment. Secondly, we de- sign an approach to transfer discriminative visual models into other modalities. 

We experiment with this representation for several multi-modal tasks, such as cross-modal retrieval and classification. Moreover, although our network is only trained with image+text and image+sound pairs, our rep- resentation can transfer between text and sound as well, a transfer the network never saw during training. 


登录查看更多
0

相关内容

专知会员服务
60+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
人工智能 | SCI期刊专刊/国际会议信息7条
Call4Papers
7+阅读 · 2019年3月12日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
相关论文
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
3D Face Modeling from Diverse Raw Scan Data
Arxiv
5+阅读 · 2019年2月13日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
9+阅读 · 2018年1月4日
Top
微信扫码咨询专知VIP会员