Video moment retrieval targets at retrieving a moment in a video for a given language query. The challenges of this task include 1) the requirement of localizing the relevant moment in an untrimmed video, and 2) bridging the semantic gap between textual query and video contents. To tackle those problems, early approaches adopt the sliding window or uniform sampling to collect video clips first and then match each clip with the query. Obviously, these strategies are time-consuming and often lead to unsatisfied accuracy in localization due to the unpredictable length of the golden moment. To avoid the limitations, researchers recently attempt to directly predict the relevant moment boundaries without the requirement to generate video clips first. One mainstream approach is to generate a multimodal feature vector for the target query and video frames (e.g., concatenation) and then use a regression approach upon the multimodal feature vector for boundary detection. Although some progress has been achieved by this approach, we argue that those methods have not well captured the cross-modal interactions between the query and video frames. In this paper, we propose an Attentive Cross-modal Relevance Matching (ACRM) model which predicts the temporal boundaries based on an interaction modeling. In addition, an attention module is introduced to assign higher weights to query words with richer semantic cues, which are considered to be more important for finding relevant video contents. Another contribution is that we propose an additional predictor to utilize the internal frames in the model training to improve the localization accuracy. Extensive experiments on two datasets TACoS and Charades-STA demonstrate the superiority of our method over several state-of-the-art methods. Ablation studies have been also conducted to examine the effectiveness of different modules in our ACRM model.


翻译:为了解决这些问题,早期方法采用滑动窗口或统一取样方法来首先收集视频剪辑,然后将每个剪辑与查询匹配。显然,这些战略耗费时间,往往导致本地化不满意的准确性,因为黄金时刻的长度不可预测。为了避免这些局限性,研究人员最近试图直接预测相关时刻的界限,而不需要先制作视频剪辑。一种主流方法是为目标查询和视频框架(例如,连接)生成一个多式特性矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量,然后对多式特性矢量矢量矢量取样。虽然这种方法已经取得一些进展,但我们认为这些方法没有很好地捕捉到本地化和视频框架之间的跨模式互动。在本文中,我们提议在不要求生成视频精度精度时直接预测相关时刻的界限。一种主流方法是为目标查询和视频框架(例如,连接)生成一个多式元量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矢量度矩阵,在测试中进行一个方向进行一个重要度度度度度度度度度度度度度度度度度度度度度度模型测测量度模型研究,在预测测量度的模型中进行一个方向上,在选择测路路路路路路路路路路路路路标量测测路路路路标度模型中进行一个测测算,在测路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路,在进行中进行中进行中进行中进行中进行中进行路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路路

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
50+阅读 · 2021年1月19日
【AAAI2021】基于组间语义挖掘的弱监督语义分割
专知会员服务
15+阅读 · 2021年1月19日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
「Github」多模态机器学习文章阅读列表
专知
123+阅读 · 2019年8月15日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员