VALSE Webinar 19-15期自注意机制与图卷积

会员服务 ·

VALSE Webinar 19-15期自注意机制与图卷积

2019 年 6 月 28 日 VALSE

报告时间： 2019年7月3日（星期三）晚上20:30（北京时间）

主题：自注意机制与图卷积

主持人：张兆翔（中国科学院自动化研究所）

报告嘉宾：胡瀚（Microsoft Research Asia）

报告题目：Towards Universal Learning Machine: Self-Attention for Visual Modeling

报告嘉宾：王小龙（Carnegie Mellon University）

报告题目：Learning Graph Representations for Video Understanding

Panel议题：

1. Transformer和BERT这样基于attention的大规模无监督训练模型已经在NLP任务中展现了巨大的潜力。NLP任务和CV任务中什么样的特点和差异导致了NLP领域会发展出以attention为基础的这一套方法？

2. 在CV中是否也有可能以attention为基础组件构建大规模预训练模型（监督或非监督）？

3. 最近一些工作指出，在一些问题中，与query无关的attention也可以取得相似甚至更好的性能，这会是一个特例还是普遍现象？这是否也意味着attention机制本身工作的方式仍有很多值得挖掘的地方？

4. 请各位分析和展望一下从应用角度来说Attention和GCN适用的问题，为什么？

Panel 主持人：王乃岩（图森未来）

Panel嘉宾：

胡瀚（Microsoft Research Asia）、王小龙（Carnegie Mellon University）、谭旭（Microsoft Research Asia）、李策（兰州理工大学）

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：胡瀚（Microsoft Research Asia）

报告时间：2019年7月3日（星期三）晚上20:30（北京时间）

报告题目：Towards Universal Learning Machine: Self-Attention for Visual Modeling

报告人简介：

Han Hu is currently a lead researcher in Visual Computing Group at Microsoft Research Asia (MSRA). Before that, he served as the tech leader of OCR group in IDL, Baidu. His current interests mainly focus on representation and relation learning for computer vision. He obtained the ph.D and bachelor degrees from Tsinghua University under supervision of Prof. Jie Zhou in 2014 and 2008, respectively. His ph. D dissertation was awarded Excellent Doctoral Dissertation Award of CAAI at 2016.

个人主页：

https://sites.google.com/site/hanhushomepage/

报告摘要：

Human beings can learn very different abilities built on the same basic neuron structures. A natural question is whether machines could also build various abilities on a universal basic model. We argue that the self-attention mechanism and the more general graph networks is perhaps the current closest model toward this goal, ascribed to its simplicity and effectiveness in modeling relationship between arbitrary elements and concepts. While self-attention/graph networks have shown dominant performance in NLP as well as various fields with graph-like data, we show such model is also general and effective to model relationship between visual elements of different levels, including pixel-pixel, pixel-object and object-object relationships. In this talk, I will introduce our recent study and reflection in this direction.

参考文献：

[1] Han Hu, Zheng Zhang, Zhenda Xie and Stephen Lin. Local Relation Networks for Image Recognition. Tech Report.

[2] Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei and Han Hu. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond. Tech Report.

[3] Jiarui Xu, Yue Cao, Zheng Zhang and Han Hu. Spatial-Temporal Relation Networks for Multi-Object Tracking. Tech Report.

[4] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai and Yichen Wei. Relation Networks for Object Detection. In CVPR 2018.

[5] Ze Yang, Shaohui Liu, Han Hu, Liwei Wang and Stephen Lin. RepPoints: Point Set Representation for Object Detection. Tech Report.

[6] Xizhou Zhu, Han Hu, Stephen Lin and Jifeng Dai. Deformable ConvNets v2: More Deformable, Better Results. In CVPR 2019.

[7] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu and Yichen Wei. Deformable Convolutional Networks. In ICCV 2017.

报告嘉宾：王小龙（Carnegie Mellon University）

报告时间：2019年7月3日（星期三）晚上21:00（北京时间）

报告题目：Learning Graph Representations for Video Understanding

Learning Graph Representations for VideoUnderstanding

报告人简介：

Xiaolong Wang is a fifth-year Ph.D. student at the Robotics Institute at the Carnegie Mellon University, advised by Prof. Abhinav Gupta. Previously, he graduated with a M.S. degree in Computer Science from Sun Yat-Sen University, where he worked under the supervision of Prof. Liang Lin. Before that, he received my B.S. degree in Computer Science from South China Agricultural University.

He has also worked with:

· Prof. Alexei Efros at the UC Berkeley in 2018 summer.

· Dr. Kaiming He and Dr. Ross Girshick at the Facebook AI Research (FAIR) in 2017 summer.

· Prof. Ali Farhadi at the Allen Institute for Artificial Intelligence (AI2) in 2015 summer.

He has received the Facebook Fellowship, NVIDIA Fellowship, and Baidu Fellowship.

个人主页：

http://www.cs.cmu.edu/~xiaolonw/index.html

Panel嘉宾：谭旭（Microsoft Research Asia）

嘉宾简介：

Xu Tan is currently an Associate Researcher in Machine Learning Group, Microsoft Research Asia (MSRA). He graduated from Zhejiang University on March, 2015. His research interests mainly lie in machine learning, deep learning, and their applications on natural language processing and speech processing, including neural machine translation, text to speech, sequence to sequence pre-training (MASS), low-resource learning, etc. He has published papers in several Machine Learning/AI/NLP/Speech conferences, including ICML, NIPS, ICLR, AAAI, ACL, EMNLP, NAACL and InterSpeech etc. He has achieved human parity on Chinese to English news translation in 2018 and won several champions in WMT 2019 machine translation challenge.

个人主页：

https://www.microsoft.com/en-us/research/people/xuta/

Panel嘉宾：李策（兰州理工大学）

嘉宾简介：

李策，工学博士，教授，博士生导师,兰州理工大学新能源学院院长。现任中国自动化学会混合智能专委会副秘书长、中国计算机学会计算机视觉青年工作组副组长等，是甘肃省基础研究创新群体“智能信息感知建模中的基础理论与方法研究”负责人；甘肃省高等学校创新创业教育教学名师。主要研究方向为计算机视觉与模式识别、机器学习、智能机器人、智能信息处理与控制系统等。主持国家自然基金项目2项，甘肃省创新群体项目1项等；作为研究骨干参与国家973项目、863科技计划项目、国家自然基金及省部项目等10余项；已在国内外期刊和会议上发表论文70余篇，其中包括国际知名期刊TIP,PRL,Optics Letter、 Sensors、Neurocomputing等。

主持人：张兆翔（中国科学院自动化研究所）

主持人简介：

张兆翔，中国科学院自动化研究所模式识别国家重点实验室研究员，博士生导师，中国科学院大学岗位教授，中国科学院脑科学与智能技术卓越创新中心年轻骨干，IEEE高级会员，VALSE常务AC，计算机视觉专委会委员，中国图像图形学学会理事，模式识别与人工智能专委会委员，人工智能学会模式识别专委会委员。

国家自然科学基金重点项目负责人，MIT高级访问学者，入选“第四批国家万人计划青年拔尖人才”、教育部新世纪优秀人才支持计划”、“北京市青年英才计划”和“微软亚洲研究院铸星计划”。

担任了AAAI、IJCAI、CVPR、ICCV、ICML、NIPS等多个国际会议的领域主席/高级程序委员会委员/程序委员会委员，SCI期刊《Neurocomputing》副主编，《IEEE Access》副主编，《Frontiers of Computer Science》青年副主编。

个人主页：

http://people.ucas.ac.cn/~zhangzhaoxiang

Panel主持人：王乃岩（图森未来）

主持人简介：

王乃岩，现为北京图森未来科技有限公司首席科学家，负责北京算法研发团队从事L4级别自动驾驶重卡的研发。在这之前，他于2011年本科毕业于浙江大学，2015年博士毕业于香港科技大学计算机科学与工程系。他是2014 Google PhD Fellow计划入选者（全球38名），多次在国际数据挖掘和计算机视觉比赛中名列前茅，是将深度学习应用于目标追踪领域全球第一人，亦是知名深度学习开源框架MXNet核心开发者。他发表的论文据Google Scholar统计总引用次数超过4000次。他的主要研究方向为计算机视觉与机器学习，特别在于将统计计算模型应用到这两者的实际问题中去。

个人主页：

http://winsty.net

19-15期VALSE在线学术报告参与方式：

长按或扫描下方二维码，关注“VALSE”微信公众号（valse_wechat），后台回复“15期”，获取直播地址。

特别鸣谢本次Webinar主要组织者：

主办AC：张兆翔（中国科学院自动化研究所）

协办AC：李策（兰州理工大学），王乃岩（图森未来）

责任AC：姬艳丽（电子科技大学）

VALSE Webinar改版说明：

自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：

1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30分钟），随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论（30分钟）。

2）Webinar特邀报告：每次活动邀请一位资深专家主讲，就其在自己熟悉领域的科研工作进行系统深入的介绍，报告时间50分钟，主持人与主讲人互动10分钟，自由问答10分钟。

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H、I群已满，除讲者等嘉宾外，只能申请加入VALSE J群，群号：734872379）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。

8、Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新[slides]。

9、Webinar报告的视频（经讲者允许后），会更新在VALSE爱奇艺空间，请在爱奇艺关注Valse Webinar进行观看。

登录查看更多

相关内容

胡瀚

关注 0

胡瀚，博士，现任微软亚洲研究院视觉计算组主管研究员，2008年和2014年在清华大学自动化系分别获得本科和博士学位，2016年获中国人工智能学会优秀博士论文奖。于2012年在宾夕法尼亚大学GRASP实验室做访问研究，加入微软亚洲研究院前曾在百度深度学习实验室工作。目前主要研究兴趣是视觉表征学习，视觉语言联合表征学习，以及视觉物体识别等等。将担任CVPR 2021领域主席。

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

专知会员服务

98+阅读 · 2019年11月20日

【CCL 2019】多模态--基于视觉的跨模态文本生成，复旦大学副教授魏忠钰

专知会员服务

74+阅读 · 2019年11月12日

浅谈文字识别：新思考、新挑战及新机遇，华南理工大学金连文教授，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

26+阅读 · 2019年10月24日

图卷积神经网络在计算金融等交叉学科领域的应用研究，复旦大学魏忠钰副教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

41+阅读 · 2019年10月21日