视频描述是一项具有挑战性的任务,需要对视觉场景有深刻的理解。最先进的方法使用场景级或对象级信息生成标题,但不显式地建模对象交互。因此,他们往往无法做出有视觉根据的预测,而且对虚假的相关性很敏感。本文提出了一种新的视频描述时空图模型,该模型利用了时空中物体间的相互作用。我们的模型建立了可解释的链接,并能够提供明确的视觉基础。为了避免由于对象数量的变化而导致系统性能的不稳定,提出了一种基于局部对象信息的全局场景特征正则化的对象感知知识提取机制。我们通过在两个基准上的大量实验来证明我们的方法的有效性,表明我们的方法具有可解释预测的竞争性能。

成为VIP会员查看完整内容
33

相关内容

CVPR is the premier annual computer vision event comprising the main conference and several co-located workshops and short courses. With its high quality and low cost, it provides an exceptional value for students, academics and industry researchers. CVPR 2020 will take place at The Washington State Convention Center in Seattle, WA, from June 16 to June 20, 2020. http://cvpr2020.thecvf.com/
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
150+阅读 · 2020年6月28日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
一文看懂如何将深度学习应用于视频动作识别
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
Arxiv
5+阅读 · 2019年6月5日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
微信扫码咨询专知VIP会员