Given an untrimmed video, temporal sentence localization (TSL) aims to localize a specific segment according to a given sentence query. Though respectable works have made decent achievements in this task, they severely rely on dense video frame annotations, which require a tremendous amount of human effort to collect. In this paper, we target another more practical and challenging setting: one-shot temporal sentence localization (one-shot TSL), which learns to retrieve the query information among the entire video with only one annotated frame. Particularly, we propose an effective and novel tree-structure baseline for one-shot TSL, called Multiple Hypotheses Segment Tree (MHST), to capture the query-aware discriminative frame-wise information under the insufficient annotations. Each video frame is taken as the leaf-node, and the adjacent frames sharing the same visual-linguistic semantics will be merged into the upper non-leaf node for tree building. At last, each root node is an individual segment hypothesis containing the consecutive frames of its leaf-nodes. During the tree construction, we also introduce a pruning strategy to eliminate the interference of query-irrelevant nodes. With our designed self-supervised loss functions, our MHST is able to generate high-quality segment hypotheses for ranking and selection with the query. Experiments on two challenging datasets demonstrate that MHST achieves competitive performance compared to existing methods.
翻译:在未剪接的视频中, 时间判决本地化( TSL) 旨在根据给定的句子查询将某个特定部分本地化。 尽管值得尊重的作品在这项工作中取得了体面的成就, 但它们严重依赖密集的视频框架说明, 这需要大量人力收集。 在本文中, 我们针对另一个更实际和更具挑战性的设置: 一发时间判决本地化( 1 shot TSL), 它只用一个附加说明的框架来学习取取整整个视频中的查询信息。 特别是, 我们为一发 TSL, 称为多功能构思树( MHST) 提出了一个有效的和新颖的树结构基线, 以捕捉在描述不足的描述下, 捕捉自觉的歧视性框架信息。 每个视频框架都被当作叶节点, 而共享相同视觉语言语义语义语义语义语义的相邻框将合并到树的顶部非Leaf节点 。 最后, 根节点是一个包含其叶洞的连续框架的单个部分假设。 在树构造中, 我们还引入了一条直线段战略, 以消除战略, 来消除我们用来消除 的 与对比性磁带 的磁带, 测试性 性 性, 演示段, 性 性, 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性能 性 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性能 性 性能 性能 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性 性能 性能 性能 性能 性能 性 性 性 性 性 性 性 性 性 性 性能 性能 性 性能 性能 性能 性能 性能 性能 性能 性能 性能