报告嘉宾:赵行(MIT)
报告时间:2018年06月13日(星期三)晚上20:00(北京时间)
报告题目:像素之声-图像和声音的跨模态自监督学习
主持人:施柏鑫(北京大学)
报告人简介:
赵行本科毕业于浙江大学,于麻省理工媒体实验室完成硕士论文,现为麻省理工计算机与人工智能实验室博士生。主要研究方向为场景解析,视频识别,和跨模态学习。
个人主页:
http://www.mit.edu/~hangzhao/
报告摘要:
深度学习的出现使得利用不同模式信号之间的学习变得容易。但同时,由于神经网络对数据的需求,标注大量的跨模态的数据非常困难。在最近的工作中,我们利用了视频中图像和声音的内在关联性,进行一系列的自监督学习。主要的应用有特征学习,声音识别,声音分离,声源在图像中的定位等。
参考文献:
[1] Soundnet: Learning sound representations from unlabeled video, Aytar, Yusuf and Vondrick, Carl and Torralba, Antonio, NIPS 2016.
[2] The Sound of Pixels, Zhao, Hang and Gan, Chuang and Rouditchenko, Andrew and Vondrick, Carl and McDermott, Josh and Torralba, Antonio, arXiv:1804.03160 (In Submission)
18-17期VALSE在线学术报告参与方式:
长按或扫描下方二维码,关注”VALSE“微信公众号(valse_wechat),后台回复”17期“,获取直播地址。
特别鸣谢本次Webinar主要组织者:
VOOC责任委员:施柏鑫(北京大学)
VODB协调理事:彭玺(四川大学)
活动参与方式:
1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互;
2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G群已满,除讲者等嘉宾外,只能申请加入VALSE H群,群号:701662399);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备;
4、活动过程中,请不要说无关话语,以免影响活动正常进行;
5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;
6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接;
7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频(经讲者允许后),每周四发布下一周Webinar报告的通知及直播链接。