【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位 - 专知

会员服务 ·

0

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

2020 年 11 月 3 日 专知

如何在具有多种声源的『鸡尾酒会』中区分不同的声音对象，这对人类来说是一项基本能力，但对当前的机器而言却仍然极具挑战！为此，本文提出一种基于课程学习策略的两阶段框架，实现了自监督下不同发声物体的判别性感知与定位。首先，我们提出在单声源场景中聚合候选声音定位结果以学习鲁棒的物体表征。进而在鸡尾酒会情景中，参考先期课程学习到的物体知识以生成不同物体的语义判别性定位图，通过将视音一致性视为自监督信息，匹配视音类别分布以滤除无声物体和选择发声对象。大量基于合成和真实多声源场景的实验表明，本文所提模型能够实现在无语义类别标注情形下，同时滤除无声物体和指出发声物体的明确位置并判定其类别属性，这在视觉多声源定位上尚属首次。

https://www.zhuanzhi.ai/paper/a3e7afb0a5c86f35871aa5269f7668ae

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DSAM” 可以获取《【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

鸡尾酒会

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

专知会员服务

18+阅读 · 2020年12月25日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知

26+阅读 · 2020年4月3日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知

7+阅读 · 2020年2月20日

Scalable, End-to-End, Deep-Learning-Based Data Reconstruction Chain for Particle Imaging Detectors

Scalable, End-to-End, Deep-Learning-Based Data Reconstruction Chain for Particle Imaging Detectors

Arxiv

0+阅读 · 2021年2月1日

Inferring spatial relations from textual descriptions of images

Arxiv

0+阅读 · 2021年2月1日

Consensus Based Medical Image Segmentation Using Semi-Supervised Learning And Graph Cuts

Arxiv

11+阅读 · 2018年5月21日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

VIP会员

相关主题

相关VIP内容

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

【AAAI2021】基于内容迁移的无监督领域自适应语义分割

专知会员服务

18+阅读 · 2020年12月25日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【书籍】从零开始构建文本生成图像生成器：基于 Transformers 与扩散模型

人工智能与未来指挥

【伯克利博士论文】将大语言模型绑定至虚拟人格：实现人类行为模拟

稀疏自编码器综述：解释大语言模型的内部机制

相关资讯

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知

26+阅读 · 2020年4月3日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知

7+阅读 · 2020年2月20日

相关论文

Scalable, End-to-End, Deep-Learning-Based Data Reconstruction Chain for Particle Imaging Detectors

Scalable, End-to-End, Deep-Learning-Based Data Reconstruction Chain for Particle Imaging Detectors

Arxiv

0+阅读 · 2021年2月1日

Inferring spatial relations from textual descriptions of images

Arxiv

0+阅读 · 2021年2月1日

Consensus Based Medical Image Segmentation Using Semi-Supervised Learning And Graph Cuts

Arxiv

11+阅读 · 2018年5月21日

MV-YOLO: Motion Vector-aided Tracking by Semantic Object Detection

Arxiv

10+阅读 · 2018年4月30日

Fine-grained Activity Recognition in Baseball Videos

Arxiv

6+阅读 · 2018年4月9日

大家都在搜

大型语言模型

蓝牙安全攻防

奈飞的颠覆式创新

亲历阿里巴巴面试

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员