为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自南方科技大学等机构的密集视频描述方面的工作。该工作由郑锋教授指导,王腾同学录制。
论文题目:基于并行解码的端到端密集视频描述
作者列表:王腾 (南方科技大学、香港大学),张瑞茂 (香港中文大学(深圳)),陆智超 (南方科技大学),郑锋 (南方科技大学),程然 (南方科技大学),罗平 (香港大学)
B站观看网址:
https://www.bilibili.com/video/BV1Xq4y1B7p7/
复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。
论文摘要:
密集视频描述任务的目标是对未修剪视频中的多个事件进行时间位置检测与自然语言描述。以往方法遵循一个复杂的“先定位再描述”的两阶段串行方案,严重依赖于手工设计的组件。本文提出了一个简单有效的端到端密集视频字幕框架PDVC,将密集视频描述定义为一个集合预测任务。与现有技术相比,PDVC有以下优势:1) 与两阶段方案相比,PDVC将Transformer输出的事件query并行输入定位头和描述头,使这两个子任务通过优化相互关联和相互促进; 2) 不依赖启发式的NMS或者事件选择网络来消除冗余,PDVC直接生成具有适当大小的事件集合; 3) 在ActivityNet Captions和YouCuok2数据集上进行的大量实验表明,PDVC在描述语句的质量上和效率上都有显著提升 。
论文信息:
[1]Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, and Ping Luo. "End-to-End Dense Video Captioning with Parallel Decoding." In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV’21), pp. 6847-6857, 2021.
论文链接:
[https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_End-to-End_Dense_Video_Captioning_With_Parallel_Decoding_ICCV_2021_paper.pdf]
代码链接:
[https://github.com/ttengwang/PDVC]
视频讲者简介:
王腾,南方科技大学与香港大学联培博士生,研究方向为计算机视觉,专注于视觉-语言多模态学习与视频理解。
特别鸣谢本次论文速览主要组织者:
月度轮值AC:张正 (哈尔滨工业大学(深圳))、李爽 (北京理工大学)
季度责任AC:许永超 (武汉大学)
活动参与方式
1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!
直播地址:
https://live.bilibili.com/22300737;
历史视频观看地址:
https://space.bilibili.com/562085182/
2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3. VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。
4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。
看到这了,确定不关注下吗?关注下再走吧~