The Synesthetic Variational Autoencoder (SynVAE) introduced in this research is able to learn a consistent mapping between visual and auditive sensory modalities in the absence of paired datasets. A quantitative evaluation on MNIST as well as the Behance Artistic Media dataset (BAM) shows that SynVAE is capable of retaining sufficient information content during the translation while maintaining cross-modal latent space consistency. In a qualitative evaluation trial, human evaluators were furthermore able to match musical samples with the images which generated them with accuracies of up to 73%.


翻译:这项研究中引入的合成审美变异自动编码器(SynVAE)能够在没有配对数据集的情况下,在视觉和审计感知模式之间取得一致的制图。对MNIST和Behance艺术媒体数据集的定量评价表明,SynVAE能够在翻译过程中保留足够的信息内容,同时保持跨模式潜藏空间的一致性。在定性评价试验中,人类评价员还能够将音乐样品与产生这些样品的图像相匹配,其精密度高达73%。

0
下载
关闭预览

相关内容

Behance 是 2006 年创立的著名设计社区,在上面,创意设计人士可以展示自己的作品,发现别人分享的创意作品(上面有许多质量上乘的设计作品),相互还可以进行互动(评论、关注、站内短信等)。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
Top
微信扫码咨询专知VIP会员