Video retrieval using natural language queries requires learning semantically meaningful joint embeddings between the text and the audio-visual input. Often, such joint embeddings are learnt using pairwise (or triplet) contrastive loss objectives which cannot give enough attention to 'difficult-to-retrieve' samples during training. This problem is especially pronounced in data-scarce settings where the data is relatively small (10% of the large scale MSR-VTT) to cover the rather complex audio-visual embedding space. In this context, we introduce Rudder - a multilingual video-text retrieval dataset that includes audio and textual captions in Marathi, Hindi, Tamil, Kannada, Malayalam and Telugu. Furthermore, we propose to compensate for data scarcity by using domain knowledge to augment supervision. To this end, in addition to the conventional three samples of a triplet (anchor, positive, and negative), we introduce a fourth term - a partial - to define a differential margin based partialorder loss. The partials are heuristically sampled such that they semantically lie in the overlap zone between the positives and the negatives, thereby resulting in broader embedding coverage. Our proposals consistently outperform the conventional max-margin and triplet losses and improve the state-of-the-art on MSR-VTT and DiDeMO datasets. We report benchmark results on Rudder while also observing significant gains using the proposed partial order loss, especially when the language specific retrieval models are jointly trained by availing the cross-lingual alignment across the language-specific datasets.
翻译:使用自然语言查询的视频检索需要学习文字和视听输入之间的精密联合嵌入。 通常, 使用对称( 或三重) 对比性损失目标来学习这种联合嵌入, 培训期间无法足够关注“ 困难到检索” 样本。 这个问题在数据相对小的数据( 大规模MSR- VTTT的10%) 数据相对小的数据残缺环境中特别突出( 大规模MSR- VTTT的), 以覆盖相当复杂的视听嵌入空间。 在这方面, 我们引入了路德 - 多语言视频文本检索数据集, 包括马拉地、 印地、 坦米尔、 Kannada、 Malaylam 和 Telugu 的音频和文字说明。 此外, 我们提议通过使用域知识加强监管, 弥补数据稀缺数据稀缺。 除了传统三重( 锚定、 正面和负) ( 缩略略) ( 缩 缩略) 和 缩略( 缩略) 等语言的缩略( 缩略) 将 校略( 缩) 校尾( 缩) 缩) 校尾( 校略) 校略) 校略( 校略) 校略) 校略( 校略) 校略) 校略) 校略) 校略) 校对结果( 校略) 校略) 校对结果( 校对) 校对) 校对 校对 校对 校对结果( 校对 校对) 校对) 校对) 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校对 校