18-02期VALSE Webinar会后总结

2018 年 1 月 22 日 VALSE VALSE

UC Berkeley大学博士后刘子纬2018年1月17日VALSE Webinar 成功举办.

刘子纬，加州大学伯克利分校博士后，本科毕业于华中科技大学电信学院，2017年博士毕业于香港中文大学多媒体实验室，师从著名的汤晓鸥和王小刚教授，期间在Microsoft research和Google research实习。他的研究兴趣是计算机视觉、机器学习、计算摄影学等，已经在cvpr、iccv、aaai等顶级会议上发表论文14篇，Google scholar citation已经打到了740多次。

刘子纬博士的Webinar的题目为：Deep learning human centric representation in the wild.

问答部分：

问题1：求分析一下直接回归坐标和回归heat map的优缺点（landmark/joint）以及offset上有什么可以改进的吗?

回答：直接回归坐标的缺点在于难以训练，优点在于对于landmark的定位较为精确且更适合3D pose等任务；heat map的优点在于可以利用现有的fully convolutional network的套路进行训练，缺点在于对于landmark的定位较为粗糙且整个网络的计算代价较大。对于cascading中offset的改进可以基于difficulty-aware learning，比如对于每个sample所预测出的offset还取决于这个sample所属的典型错误类型，具体细节可参见我们ECCV 2016关于fashion landmark detection的论文。

问题2：能谈一下你对Deep learning 和MRF、图模型或者贝叶斯结合这个方向的看法吗?

回答：Deep learning和MRF以及图模型相结合的工作现在已经广泛运用于semantic segmentation和pose estimation等任务中。但现有的图模型仅仅局限于对于可观察变量（observable factors）的推理，比如pixel之间或者landmark/part之间的关系。我个人认为未来的方向在于将隐变量（latent factors）融入图模型中，比如从单张2D图像中推理整个场景的3D结构或者图中不同实例间的交互关系。

问题3: 关于图像中异质信息的联系和融合，其中 identity, attribute信息比较好理解，而自监督信息具体指的什么呀？目前有没有类似的工作可以推荐？谢谢

回答：我理解的自监督信息来源于自然图像和视频中所存在的natural consistency和correspondence，比如我们的deep voxel flow证明视频的相邻帧间存在很强的对应关系且可以无监督地发现。同样的，对于属性相同的人脸和服饰，它们的局部关键点也一定会共享一些特性。我们可以利用这些相似性来无监督地定位关键点。比较典型的工作包括VGG组在ICCV 2017上发表的Unsupervised Learning of Object Landmarks这篇论文。我们最近也有一个self-supervised semantic segmentation的工作发现在某些情况下自监督信息甚至可以媲美完全监督信息。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：王兴刚（华中科技大学）

VODB协调理事：王乃岩（北京图森未来科技有限公司）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；