18-17期VALSE Webinar会后总结

2018 年 6 月 19 日 VALSE

麻省理工学院博士生赵行2018年6月13日VALSE Webinar 成功举办


赵行,麻省理工学院博士生,于2013年在浙江大学竺可桢学院光电信息工程系获得学士学位,随后在麻省理工学院媒体实验室获得硕士学位。在计算机视觉领域发表论文10余篇,主要涵盖场景解析,跨模态学习,计算摄影等方向。担任过IEEE TIP, IEEE TCI, Optics Express, NIPS, CVPR, ICCV, ECCV等期刊和会议审稿人。


赵行Webinar的题目为:像素之声-图像和声音的跨模态自监督学习。


在报告中,赵行首先回顾了声音处理的基本方法,以及声音识别的基本任务,包括声音识别,声音分离,声源定位等。对于声音识别,赵行讲解了利用大量视频进行声音信号特征学习的网络SoundNet,这种自监督学习的预训练大幅度提高了声音识别的准确率。而后,赵行讲解了最近的项目Sound of Pixels如何利用图像和声音的同步性,同时实现声音分离和声源定位,并在音乐的分离上取得了杰出的效果,甚至优于传统的监督训练。


问答部分:


问题1:请问个问题 k个channel k怎么取?另外您给了3个example说明对应的是不同乐器的filter,那剩下的k-3也是对应其他的乐器吗?要求存在k种乐器?

回答:channel K 可以任意取,不需要与乐器数量相同,一般选择比乐器数量大的值。给出的三个例子是神经网络恰好在这三个通道自己学到了三种不同的乐器,根据观察,在K比较大的时候,可能有多个通道来共同表征一个乐器。

 

问题2:可以单独讲一下u-net 对speech提取特征的作用好吗?

回答:我们这里之所以选择u-net,在于它的输入与输出的大小一致,因为我们想要预测一个和输入的声谱图一样大的mask。

 

问题3:若是几个人说话,能把不同人的声音能分出来吗?

回答:可以的,我们没有做语音方面的研究,但是神经网络可以根据嘴唇的运动,将不同声音分离出来。

 

问题4:训练时的误差函数是什么?

回答:因为我们的目标是预测一个mask,所以误差函数是对二分类的cross entropy loss。

 

问题5:有关定位的,个人认为点击不同位置能够确定发声,应该是需要标签的,如果没有标签,只根据动作的话,那人身也会动,弹吉他的时候,如果点击弹奏者的胳膊能不能发声?

回答:测试的时候也不需要标签。点击弹奏者的胳膊不会发出声音,因为神经网络不仅仅依赖于运动特征,也依赖于形态特征来识别发出声音的位置。

 

问题6:怎么在图片上定位的声源?只知道能通过图片的分类来确定是哪种乐器,怎么确定声音来自哪一局部区域?

回答:如果已经有了分离出来的声音,在图片上定位是一个更简单的过程。在我们的系统中,可以把声音特征在图像空间里做相关性分析,就能确定声音的来源了。

 

问题7:假如是静止的物体发声也能够定位出来?

回答:是可以的,视觉网络提取了视频中的形态特征和动作特征,都可以作为发声的依据。

 

问题8:没有视频辅助的话,能否分离人声和背景音乐呢?

回答:在训练完以后,我们可以把视觉的网络拿掉,单独利用声音的网络进行声音分离,但同时我们需要一些简单的如SVM的方法对K个通道进行分类。

 

问题9:请问能用来识别 歌手假唱吗?

回答:这是一个很有意思的应用,理论上是可以的,神经网络可以根据图像和声音的不同步,判别出假唱。


录像视频在线观看地址:

http://www.iqiyi.com/u/2289191062


PPT下载地址:

http://vision.ouc.edu.cn/valse/slides/20180613/valse180613.pdf


特别鸣谢本次Webinar主要组织者:

VOOC责任委员:施柏鑫(北京大学)

VODB协调理事:彭玺(四川大学)


活动参与方式:

1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互;

2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G群已满,除讲者等嘉宾外,只能申请加入VALSE H群,群号:701662399);

*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。

3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备;

4、活动过程中,请不要说无关话语,以免影响活动正常进行;

5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;

6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接;

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频(经讲者允许后),每周四发布下一周Webinar报告的通知及直播链接。


登录查看更多
5

相关内容

VALSE 发起于 2011年,是 Vision And Learning Seminar 的简写,取“华尔兹舞”之意。目的是为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供一个平等、自由的学术交流舞台。官网:http://valser.org/
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
120+阅读 · 2019年10月10日
VALSE Webinar 19-24期 去雨去雾专题
VALSE
23+阅读 · 2019年9月12日
VALSE Webinar 19-16期 云深可知处:视觉SLAM
VALSE
12+阅读 · 2019年7月4日
VALSE Webinar 19-09期 3D视觉与深度学习
VALSE
5+阅读 · 2019年4月12日
VALSE Webinar 19-07期 迁移学习与领域适配
VALSE
5+阅读 · 2019年3月28日
VALSE Webinar 19-05期 自动机器学习 AutoML
VALSE
8+阅读 · 2019年2月28日
VALSE Webinar 19-01期 元学习专题研讨
VALSE
13+阅读 · 2018年12月27日
18-16期VALSE Webinar会后总结
VALSE
3+阅读 · 2018年6月11日
Arxiv
9+阅读 · 2020年2月15日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
6+阅读 · 2018年6月21日
Arxiv
11+阅读 · 2018年4月8日
VIP会员
相关资讯
VALSE Webinar 19-24期 去雨去雾专题
VALSE
23+阅读 · 2019年9月12日
VALSE Webinar 19-16期 云深可知处:视觉SLAM
VALSE
12+阅读 · 2019年7月4日
VALSE Webinar 19-09期 3D视觉与深度学习
VALSE
5+阅读 · 2019年4月12日
VALSE Webinar 19-07期 迁移学习与领域适配
VALSE
5+阅读 · 2019年3月28日
VALSE Webinar 19-05期 自动机器学习 AutoML
VALSE
8+阅读 · 2019年2月28日
VALSE Webinar 19-01期 元学习专题研讨
VALSE
13+阅读 · 2018年12月27日
18-16期VALSE Webinar会后总结
VALSE
3+阅读 · 2018年6月11日
相关论文
Arxiv
9+阅读 · 2020年2月15日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
3+阅读 · 2019年3月29日
Arxiv
6+阅读 · 2018年6月21日
Arxiv
11+阅读 · 2018年4月8日
Top
微信扫码咨询专知VIP会员