VALSE 论文速览第30期：基于并行解码的端到端密集视频描述 - 专知

会员服务 ·

0

VALSE 论文速览第30期：基于并行解码的端到端密集视频描述

2021 年 12 月 1 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自南方科技大学等机构的密集视频描述方面的工作。该工作由郑锋教授指导，王腾同学录制。

论文题目：基于并行解码的端到端密集视频描述

作者列表：王腾 (南方科技大学、香港大学)，张瑞茂 (香港中文大学(深圳))，陆智超 (南方科技大学)，郑锋 (南方科技大学)，程然 (南方科技大学)，罗平 (香港大学)

B站观看网址：

https://www.bilibili.com/video/BV1Xq4y1B7p7/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

密集视频描述任务的目标是对未修剪视频中的多个事件进行时间位置检测与自然语言描述。以往方法遵循一个复杂的“先定位再描述”的两阶段串行方案，严重依赖于手工设计的组件。本文提出了一个简单有效的端到端密集视频字幕框架PDVC，将密集视频描述定义为一个集合预测任务。与现有技术相比，PDVC有以下优势：1) 与两阶段方案相比，PDVC将Transformer输出的事件query并行输入定位头和描述头，使这两个子任务通过优化相互关联和相互促进; 2) 不依赖启发式的NMS或者事件选择网络来消除冗余，PDVC直接生成具有适当大小的事件集合; 3) 在ActivityNet Captions和YouCuok2数据集上进行的大量实验表明，PDVC在描述语句的质量上和效率上都有显著提升。

论文信息：

[1]Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, and Ping Luo. "End-to-End Dense Video Captioning with Parallel Decoding." In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV’21), pp. 6847-6857, 2021.

论文链接：

[https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_End-to-End_Dense_Video_Captioning_With_Parallel_Decoding_ICCV_2021_paper.pdf]

代码链接：

[https://github.com/ttengwang/PDVC]

视频讲者简介：

王腾，南方科技大学与香港大学联培博士生，研究方向为计算机视觉，专注于视觉-语言多模态学习与视频理解。

特别鸣谢本次论文速览主要组织者：

月度轮值AC：张正 (哈尔滨工业大学(深圳))、李爽 (北京理工大学)

季度责任AC：许永超 (武汉大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ R群，群号：137634472）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3. VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

看到这了，确定不关注下吗？关注下再走吧～

登录查看更多

0

相关内容

视频描述

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【CVPR2022】基于联合表示学习和在线聚类的无监督活动分割

【CVPR2022】基于联合表示学习和在线聚类的无监督活动分割

专知会员服务

13+阅读 · 2022年3月2日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

近期必读的5篇顶会CVPR 2021【视频理解】相关论文和代码

专知会员服务

38+阅读 · 2021年3月31日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

【ECCV2020】基于场景图分解的自然语言描述生成

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

VALSE 论文速览第58期：背景标注引导的动作定位

VALSE 论文速览第58期：背景标注引导的动作定位

VALSE

0+阅读 · 2022年3月18日

VALSE 论文速览第46期：基于多层次特征优化的自监督视频表征学习

VALSE 论文速览第46期：基于多层次特征优化的自监督视频表征学习

VALSE

0+阅读 · 2022年2月1日

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE

0+阅读 · 2021年11月26日

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE

0+阅读 · 2021年11月19日

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE

1+阅读 · 2021年11月2日

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE

0+阅读 · 2021年10月21日

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE

1+阅读 · 2021年9月17日

VALSE 论文速览第08期：基于单张图像的三维场景重建

VALSE 论文速览第08期：基于单张图像的三维场景重建

VALSE

2+阅读 · 2021年8月17日

VALSE 论文速览第05期：CoCosNet v2：基于样例图像的高清图像翻译网络

VALSE 论文速览第05期：CoCosNet v2：基于样例图像的高清图像翻译网络

VALSE

0+阅读 · 2021年8月4日

VALSE 论文速览第04期：用于3D人体姿态估计的可微的数据增强框架

VALSE 论文速览第04期：用于3D人体姿态估计的可微的数据增强框架

VALSE

0+阅读 · 2021年7月31日

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯联合模型的皮层脑机接口实现: 动作电位的实时检测、分类和解码

国家自然科学基金

0+阅读 · 2013年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于音节模型的音频点播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

土木工程中CFRP构件的涡流热成像损伤检测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于结构化集学习的视频稀疏编码理论与技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于弱监督学习和深度信息的目标跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于局部不变性特征流的相异场景密集匹配

国家自然科学基金

0+阅读 · 2011年12月31日

视频监控中活动人物的视觉理解

国家自然科学基金

1+阅读 · 2009年12月31日

基于大鼠运动神经编码的脑机接口研究

国家自然科学基金

0+阅读 · 2008年12月31日

Preventing technical debt with the TAP framework for Technical Debt Aware Management

Preventing technical debt with the TAP framework for Technical Debt Aware Management

Arxiv

0+阅读 · 2022年4月20日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

Understanding Toxicity Triggers on Reddit in the Context of Singapore

Arxiv

0+阅读 · 2022年4月19日

Caption Feature Space Regularization for Audio Captioning

Arxiv

0+阅读 · 2022年4月18日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

VIP会员

相关主题

相关VIP内容

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【CVPR2022】基于联合表示学习和在线聚类的无监督活动分割

【CVPR2022】基于联合表示学习和在线聚类的无监督活动分割

专知会员服务

13+阅读 · 2022年3月2日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

近期必读的5篇顶会CVPR 2021【视频理解】相关论文和代码

专知会员服务

38+阅读 · 2021年3月31日

近期必读的五篇AAAI 2021【视频理解】相关论文和代码

专知会员服务

51+阅读 · 2021年1月19日

【ECCV2020】基于场景图分解的自然语言描述生成

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

VALSE 论文速览第58期：背景标注引导的动作定位

VALSE 论文速览第58期：背景标注引导的动作定位

VALSE

0+阅读 · 2022年3月18日

VALSE 论文速览第46期：基于多层次特征优化的自监督视频表征学习

VALSE 论文速览第46期：基于多层次特征优化的自监督视频表征学习

VALSE

0+阅读 · 2022年2月1日

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE

0+阅读 · 2021年11月26日

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE

0+阅读 · 2021年11月19日

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE

1+阅读 · 2021年11月2日

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE 论文速览第19期：基于Transformer的视觉目标跟踪

VALSE

0+阅读 · 2021年10月21日

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE 论文速览第15期：图像超分辨率中的稀疏性及高效推理

VALSE

1+阅读 · 2021年9月17日

VALSE 论文速览第08期：基于单张图像的三维场景重建

VALSE 论文速览第08期：基于单张图像的三维场景重建

VALSE

2+阅读 · 2021年8月17日

VALSE 论文速览第05期：CoCosNet v2：基于样例图像的高清图像翻译网络

VALSE 论文速览第05期：CoCosNet v2：基于样例图像的高清图像翻译网络

VALSE

0+阅读 · 2021年8月4日

VALSE 论文速览第04期：用于3D人体姿态估计的可微的数据增强框架

VALSE 论文速览第04期：用于3D人体姿态估计的可微的数据增强框架

VALSE

0+阅读 · 2021年7月31日

相关基金

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯联合模型的皮层脑机接口实现: 动作电位的实时检测、分类和解码

国家自然科学基金

0+阅读 · 2013年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

基于音节模型的音频点播关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

土木工程中CFRP构件的涡流热成像损伤检测方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于结构化集学习的视频稀疏编码理论与技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于弱监督学习和深度信息的目标跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于局部不变性特征流的相异场景密集匹配

国家自然科学基金

0+阅读 · 2011年12月31日

视频监控中活动人物的视觉理解

国家自然科学基金

1+阅读 · 2009年12月31日

基于大鼠运动神经编码的脑机接口研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Preventing technical debt with the TAP framework for Technical Debt Aware Management

Preventing technical debt with the TAP framework for Technical Debt Aware Management

Arxiv

0+阅读 · 2022年4月20日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

Understanding Toxicity Triggers on Reddit in the Context of Singapore

Arxiv

0+阅读 · 2022年4月19日

Caption Feature Space Regularization for Audio Captioning

Arxiv

0+阅读 · 2022年4月18日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员