VALSE Webinar 22-04期总第270期让机器看懂视频：视频分割与目标追踪

2022 年 3 月 3 日 VALSE

报告时间	2022年03月09日 (星期三) 晚上20:00 (北京时间)
主题	让机器看懂视频：视频分割与目标追踪
主持人	丛润民 (北京交通大学)
直播地址	https://live.bilibili.com/22300737

报告嘉宾：杨宗鑫 (浙江大学)

报告题目：视频理解中的多目标联合分割

报告嘉宾：王立君 (大连理工大学)

报告题目：基于外观模型的视频目标跟踪与分割

Panel嘉宾：

杨宗鑫 (浙江大学)、王立君 (大连理工大学)、王利民 (南京大学)，林巍峣 (上海交通大学)、杨帆 (快手)

Panel议题：

1. Transformer在视频内容理解领域有哪些应用和研究前景？

2. 多模态数据的融合和学习能否助力视频内容理解？有哪些经验和思考？

3. 时序建模到底有多重要？如果单帧足够好是不是一定需要时序？

4. 视频数据的逐帧标注耗时耗力，如何降低视频数据的标注成本？

5. 自动驾驶、增强现实等应用对算法实时性有着较高的要求，目前追求实时性的视频理解研究中有哪些挑战？

6. 北京冬奥中出现了许多黑科技，如高速相机、沉浸式3D体验、8K超高清传输等，还有什么更加酷炫的视频技术？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：杨宗鑫 (浙江大学)

报告时间：2022年03月09日 (星期三)晚上20:00 (北京时间)

报告题目：视频理解中的多目标联合分割

报告人简介：

杨宗鑫博士目前是浙江大学计算机科学与技术学院的博士后研究员。他于2021年在悉尼科技大学获博士学位。他的研究方向为计算机视觉，包括视频理解、三维视觉和视觉内容生成。杨宗鑫博士已在世界顶级的学术会议 (NeurIPS，CVPR，ICCV，ECCV)和期刊 (TPAMI)上以第一作者身份发表6篇论文。他多次在视频分割领域顶级学术竞赛中获奖，并于第三届大规模视频目标分割挑战赛 (CVPR2021)中获得两项赛道冠军。

个人主页：

https://z-x-yang.github.io/

报告摘要：

视频目标分割是视频理解领域中的一项基础任务，涉及到视觉目标的时空匹配与像素级理解。视频场景中往往含有若干个目标，因目标数量是不定的，传统的视频目标分割方法往往被设计为单独地处理每个目标，但这不利于建立多目标之间的联系。为此，我们的CFBI系列方法提出协作式地理解目标与其相对背景中的目标的联系，缓解了多目标混淆的问题。但该方法算法复杂度依然正相关于目标数量，因此为了在单一复杂度下实现对任意多个视频目标的联合理解，我们近期进一步提出了基于身份识别机制的多目标联合分割方法 (AOT)，实现了视频场景下多目标的统一建模、匹配与分割。AOT在速度上相对CFBI取得了多倍提升的同时，在精度上也取得了显著超越。

参考文献：

[1] Zongxin Yang, Yunchao Wei, Yi Yang, “Collaborative Video Object Segmentation by Foreground-Background Integration,” In ECCV, 2020.

[2] Zongxin Yang, Yunchao Wei, Yi Yang, “Collaborative Video Object Segmentation by Multi-scale Foreground-Background Integration,” TPAMI, 2021.

[3] Zongxin Yang, Yunchao Wei, Yi Yang: Associating Objects with Transformers for Video Object Segmentation,” NeurIPS, 2021.

报告嘉宾：王立君 (大连理工大学)

报告时间：2022年03月09日 (星期三)晚上20:30 (北京时间)

报告题目：基于外观模型的视频目标跟踪与分割

报告人简介：

王立君，大连理工大学人工智能学院副教授，硕士生导师，入选2019年“博士后创新人才支持计划”。主要研究方向聚焦于图像深度估计、视觉目标跟踪与显著性目标检测等。在本领域顶级学术会议和期刊 (IEEE CVPR, ICCV, ECCV, TPAMI, IJCV, TOG, PR等)发表论文数十篇，谷歌学术总引用量超4500次。相关研究成果获得教育部自然科学二等奖，中国图象图形学学会优秀博士论文奖，以及辽宁省优秀博士论文奖。连续两年获得国际视觉目标跟踪竞赛 (VOT2020, 2021)RGB-D赛道冠军。

个人主页：

http://faculty.dlut.edu.cn/wanglj/zh_CN/index.htm

报告摘要：

单目标视觉跟踪 (VOT)与视频目标分割 (VOS)都是视频内容理解中基础而关键的研究方向。两者在模型初始化、目标外观表征、任务目标等多个方面有着紧密的关联性，且两个方向代表性的研究方案均聚焦于外观模型的构建问题。鉴于此，本次汇报将围绕目标外观建模展开，对上述两个任务进行简要分析对比。在此基础之上，将介绍团队在长时目标跟踪、视频人像分割、多模态视频分割以及跟踪数据标注等领域的最新研究进展。

参考文献：

[1] Yunhua Zhang, Lijun Wang , Dong Wang, Jinqing Qi, Huchuan Lu, “Learning Regression and Verification Networks for Robust Long-term Tracking,” IJCV, 2021.

[2] Kenan Dai, Jie Zhao, Lijun Wang, Dong Wang, Jianhua Li, Huchuan Lu, "Video Annotation for Visual Tracking via Selection and Refinement," in ICCV, 2021.

[3] DezhuangLi, Lijun Wang, Yifan Wang, Lu Zhang, Jinqing Qi, Huchuan Lu, “You Only Infer Once: Cross-Modal Meta-Transfer for Referring Video Object Segmentation”, in AAAI, 2022.

[4] Yifan Wang, Wenbo Zhang, Lijun Wang, Fenghua Yang, Huchuan Lu, “Temporal Consistent Portrait Video Segmentation”, PR, 2021.

Panel嘉宾：王利民 (南京大学)

嘉宾简介：

王利民，南京大学教授，博导。2011年在南京大学获得学士学位，2015在香港中文大学获得博士学位，2015年至2018在苏黎世联邦理工学院 (ETH Zurich)从事博士后研究工作。研究方向为计算机视觉与深度学习，具体关注视频理解和动作识别。在国际重要期刊 (IJCV/T-PAMI等)和会议 (CVPR/ICCV等)发表学术论文40余篇，根据Google Scholar统计，论文被引用 13000余次，H-index 37。提出的时序分段网络 (TSN)获得2016 ActivityNet比赛冠军，该技术已经成为动作识别领域的基准方法。获得奖励：江苏省优秀本科毕设团队奖 (2012)、吴文俊人工智能科技进步二等奖 (2019)、广东省技术发明一等奖 (2019)、世界人工智能大会青年优秀论文奖 (2020)、入选AI 2000人工智能全球最具影响力学者榜单 (2022)。

个人主页：

http://wanglimin.github.io/

Panel嘉宾：林巍峣 (上海交通大学)

嘉宾简介：

林巍峣，上海交通大学教授，博士生导师，任IEEE TIP, TCSVT等期刊编委。主要研究方向是计算机视觉和模式识别、人工智能、视频分析、视频通信与编码等。发表国际学术论文100余篇。获得教育部“青年长江”学者、上海市五四青年奖章、上海市浦江人才等荣誉。

个人主页：

https://weiyaolin.github.io/

主持人：丛润民 (北京交通大学)

主持人简介：

丛润民，北京交通大学数字媒体信息处理研究中心副教授，入选中国科协“青年人才托举工程”、“北京市科技新星”计划等。担任中国图像图形学会青年工作委员会副秘书长、北京图象图形学学会理事、Valse执行领域主席。主要研究方向包括计算机视觉、人工智能、多媒体信息处理、机器学习等。在IEEE TIP、NeurIPS、CVPR等国际学术期刊及会议上发表论文50余篇，其中CCF-A/IEEE Trans 论文33篇，ESI热点论文1篇、ESI高被引论文7篇。担任Neurocomputing、Signal, Image and Video Processing等SCI期刊编委，荣获IEEE ICME 最佳学生论文奖亚军、天津市科学技术进步一等奖、ACM SIGWEB 中国新星奖、中国图象图形学学会优秀博士学位论文奖、第十五届北京青年优秀科技论文奖、IEEE CVPR杰出审稿人奖、IEEE Journal of Oceanic Engineering杰出审稿人奖等。

个人主页：

https://rmcong.github.io/

特别鸣谢本次Webinar主要组织者：

主办AC：丛润民 (北京交通大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ R群，群号：137634472）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。