视觉跟踪是计算机视觉领域的一个重要问题,在视觉监控、智能交通、机器人等视觉系统中发挥着重要作用。然而,现有的跟踪方法往往基于 RGB 图像序列,这些序列对亮度的变化非常敏感,因此一些目标在弱光条件下是无效的。在这种情况下,现有方法的跟踪性能可能会显著降低。

https://www.zhuanzhi.ai/paper/c6cc2d20fe3e758d83a8decbbc882956

引入诸如深度和红外数据等其他方式是处理单个源成像局限性的有效方法,但多模态成像平台通常需要精心设计,目前无法应用于许多现实应用中。近红外(NIR)成像是许多监控摄像机的重要组成部分,其成像可以根据光照强度在 RGB 和 NIR 之间切换。这两种方式是异质的,具有不同的视觉特性,因此给视觉跟踪带来了巨大的挑战。然而,现有的研究工作尚未对这一具有挑战性的问题进行研究。那么如何设计一种合适的算法,以缓解RGB和NIR模式之间的外观差距,并灵活地嵌入到不同的跟踪框架中,实现鲁棒的跨模式目标跟踪?如何创建视频基准数据集以促进跨模态目标跟踪的研究和发展?

在这项工作中,我们解决了跨模态目标跟踪课题,并提出了一个新的视频数据集CMOTB,包括654个跨模态图像序列,总帧数超过486k,平均视频长度超过735帧。为了促进跨模态目标跟踪的研究和发展,我们提出了一个新的即插即用模块。该模块学习感知模态的目标表示,以减少在跟踪过程中 RGB 和 NIR 不同模态之间的外观差距,可以灵活地嵌入不同的跟踪框架中。在我们提出的数据集上进行了广泛的实验,证明了所提出的模块对于两个代表性的跟踪框架,即 dimp-50和 RT-MDNet 上的17种最先进的跟踪方法的有效性。

成为VIP会员查看完整内容
0
14

相关内容

https://www.zhuanzhi.ai/paper/ed630ac577c1df4b28acd624e58a0432

当前主流的视频文本检索模型基本上都采用了基于 Transformer[1] 的多模态学习框架,主要可以分成 3 类:

Two-stream,文本和视觉信息分别通过独立的 Vision Transformer 和 Text Transformer,然后在多模态 Transformer 中融合,代表方法例如 ViLBERT[2]、LXMERT[3] 等。

Single-stream,文本和视觉信息只通过一个多模态 Transformer 进行融合,代表方法例如 VisualBERT[4]、Unicoder-VL[5] 等。

Dual-stream,文本和视觉信息仅仅分别通过独立的 Vision Transformer 和 Text Transformer,代表方法例如 COOT[6]、T2VLAD[7] 等。

由于类别 1 和类别 2 方法在时间开销上的限制,本文提出的 HiT( Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval)[8] 模型采用了类别 3 Dual-stream 的 Transformer 框架,以满足大规模视频文本检索的需求。然而现有基于 Transformer 的多模态学习方法会有两个局限性:

Transformer 不同网络层的输出具有不同层次的特性,而现有方法并没有充分利用这一特性;

端到端模型受到显存容量的限制,无法在一个 batch 内利用较多的负样本。

针对上述 2 个局限,本文提出(1)层次跨模态对比匹配(Hierarchical Cross-modal Contrast Matching,HCM),对 Transformer 的底层网络和高层网络分别进行对比匹配,解决局限 1 的问题;(2)引入 MoCo[9] 的动量更新机制到跨模态对比匹配中,使跨模态对比匹配的过程中能充分利用更多的负样本,解决局限 2 的问题。实验表明 HiT 在多个视频-文本检索数据集上取得 SOTA 的效果。

HiT 模型主要有两个创新点:

提出层次跨模态对比匹配 HCM。Transformer 的底层和高层侧重编码不同层次的信息,以文本输入和 BERT[10] 模型为例,底层 Transformer 侧重于编码相对简单的基本语法信息,而高层 Transformer 则侧重于编码相对复杂的高级语义信息。因此使用 HCM 进行多次对比匹配,可以利用 Transformer 这一层次特性,从而得到更好的视频文本检索性能;

引入 MoCo 的动量更新机制到跨模态对比匹配中,提出动量跨模态对比 MCC。MCC 为文本信息和视觉信息分别维护了一个容量很大并且表征一致的负样本队列,从而克服端到端训练方法受到显存容量的限制,只能在一个相对较小的 batch 内寻找负样本这一缺点,利用更多的负例,从而得到更好的视频和文本表征。

成为VIP会员查看完整内容
0
13

对比学习允许我们通过对比消极样本中的正对来灵活地定义强大的损失函数。最近,该原理也被用于学习视频和文本的跨模态嵌入,但没有充分发挥其潜力。特别是之前的损失没有考虑模态内的相似性,导致嵌入效率低下,因为相同的内容被映射到嵌入空间的多个点上。在CrossCLR中,我们提出了一个对比损失来解决这个问题。此外,我们根据输入嵌入定义了高度相关的样本集,并将其从负样本中排除,以避免假负样本性问题。我们表明,这些原则持续地提高了学习嵌入的质量。通过CrossCLR学习的联合嵌入扩展了Youcook2和LSMDC数据集上的视频文本检索和Youcook2数据集上的视频字幕的技术水平。我们还通过学习其他对模式的改进的关节嵌入来证明这个概念的通用性。

https://www.zhuanzhi.ai/paper/91484725dec5fe4f3db2e6bb2ca9a448

成为VIP会员查看完整内容
0
12

对于一张包含了许多文字信息的图片,不同的人感兴趣的文字信息可能是不同的。然而目前对于图片文字敏感的图像描述模型并不能根据不同的信息需求生成个性化的描述。为了研究如何生成个性化的关于图片文字的描述,我们定义了一个新的具有挑战的任务,名为“问题控制的图片文字敏感的图像描述”(Qc-TextCap)。这个任务采用问题作为控制信号,要求模型首先理解问题,然后找到对应的图片文字,最后结合图像中的对象用流利的人类语言描述出来。我们基于已有的两个“图片文字敏感的图像描述”数据集自动构建了两个适合Qc-TextCap的数据集:ControlTextCaps和ControlVizWiz。我们进一步提出了一个新颖的对空间位置和问题敏感的模型(GQAM),可以逐步地编码相关的视觉特征和文本特征以支持最后的描述生成。考虑到图像中对象区域和文字区域的空间关系,GQAM首先应用一个空间视觉编码器去融合相关的视觉特征。然后我们使用一个问题导向的编码器去为每个问题挑选最相关的视觉特征。最后,GQAM使用一个多模态解码器生成图像描述。我们的模型在两个数据集上的效果都超过了基准模型。通过问题作为控制信号,我们的模型可以得到更加多样,更有信息量的图像描述。

https://www.zhuanzhi.ai/paper/8d2e55a9222e9441dfb651d02d3bdb1c

成为VIP会员查看完整内容
0
9

视频行为理解中的一个核心难点是「场景偏差」问题。比如,一段在篮球场跳舞的视频,会被识别为打篮球,而非跳舞。我们提出一种自监督视频表征学习方案,通过直接在代理任务中显式解耦场景与运动信息,处理「场景偏差」难题。值得注意的是,本方案中,解耦的场景与运动信息均从「视频压缩编码」中提取得到。其中场景由关键帧 (keyframes) 表示,运动由运动向量 (motion vectors) 表示,二者提取速度是光流的100倍。基于该解耦方案预训练的视频网络模型,迁移至行为理解和视频检索两项下游任务,性能均显著超过SOTA。

https://www.zhuanzhi.ai/paper/591341f12cfa1759edac18c262ce5a31

成为VIP会员查看完整内容
0
19

自监督学习已被广泛应用于从未标记图像中获取可转移的表示。特别是,最近的对比学习方法在下游图像分类任务中表现出了令人印象深刻的性能。这些对比方法主要集中在语义保留变换下的图像级上生成不变的全局表示,容易忽略局部表示的空间一致性,因此在目标检测和实例分割等本地化任务的预处理中存在一定的局限性。此外,在现有的对比方法中使用的积极裁剪视图可以最小化单个图像中语义不同区域之间的表示距离。

在本文中,我们提出了一种用于多目标和特定位置任务的空间一致表示学习算法(SCRL)。特别地,我们设计了一个新的自监督目标,试图根据几何平移和缩放操作产生随机裁剪局部区域的连贯空间表示。在使用基准数据集的各种下游定位任务上,提出的SCRL显示了相对于图像级监督前训练和最先进的自监督学习方法的显著性能改进。代码将会被发布。

https://www.zhuanzhi.ai/paper/86fc25415eef2e6e1ed9019494ce1fcf

成为VIP会员查看完整内容
0
39

我们研究了无监督的视频表示学习,该学习旨在仅从未标记的视频中学习运动和外观特征,可以将其重用于下游任务,例如动作识别。然而,由于以下原因,这项任务极具挑战性:1)视频中的高度时空信息;2)缺少用于训练的标记数据。与静态图像的表示学习不同,难以构造合适的自我监督任务来很好地对运动和外观特征进行建模。最近,已经进行了几种尝试以通过视频回放速度预测来学习视频表示。但是,为视频获取精确的速度标签并非易事。更关键的是,学习的模型可能倾向于集中于运动模式,因此可能无法很好地学习外观特征。在本文中,我们观察到相对回放速度与运动模式更加一致,从而为表示学习提供了更加有效和稳定的监督。因此,我们提出了一种感知播放速度并利用两个视频片段之间的相对速度作为标签的新方法。这样,我们就能很好地感知速度并学习更好的运动功能。此外,为了确保学习外观特征,我们进一步提出了以外观为中心的任务,其中我们强制执行模型以感知两个视频剪辑之间的外观差异。我们表明,优化两个任务可以共同持续改善两个下游任务(即动作识别和视频检索)的性能。值得注意的是,对于UCF101数据集上的动作识别,在不使用标记数据进行预训练的情况下,我们达到了93.7%的准确性,这优于ImageNet监督的预训练模型。

https://arxiv.org/abs/2011.07949

成为VIP会员查看完整内容
0
15

从图像中进行自监督学习的目标是通过不需要对大量训练图像进行语义注释的前置任务来构造语义上有意义的图像表示。许多前置任务导致与图像变换协变的表示。相反,我们认为语义表示在这种转换下应该是不变的。具体来说,我们开发了前置不变表示学习(PIRL,发音为“pearl”),该学习基于前置任务的不变表示。我们将PIRL与一个常用的前置任务一起使用,该任务涉及解决拼图游戏。我们发现,PIRL极大地提高了学习图像表示的语义质量。我们的方法设置了一个新的艺术的自监督学习从图像上几个流行的基准自我监督学习。尽管是无监督的,但PIRL在学习图像表示和目标检测方面的表现优于有监督的前训练。总之,我们的结果证明了具有良好不变性的图像表示的自监督学习的潜力。

成为VIP会员查看完整内容
0
40
小贴士
相关VIP内容
专知会员服务
13+阅读 · 2021年10月24日
专知会员服务
12+阅读 · 2021年10月4日
专知会员服务
9+阅读 · 2021年9月23日
专知会员服务
16+阅读 · 2021年3月23日
专知会员服务
39+阅读 · 2021年3月12日
专知会员服务
15+阅读 · 2021年2月12日
专知会员服务
40+阅读 · 2020年4月19日
相关论文
Rui Zhang,Bayu Distiawan Trisedy,Miao Li,Yong Jiang,Jianzhong Qi
0+阅读 · 1月17日
Yixin Liu,Shirui Pan,Ming Jin,Chuan Zhou,Feng Xia,Philip S. Yu
12+阅读 · 2021年8月5日
Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu
57+阅读 · 2021年6月8日
Jaemin Cho,Jie Lei,Hao Tan,Mohit Bansal
8+阅读 · 2021年2月4日
Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation
Shizhu Liu,Shanglin Yang,Hui Zhou
7+阅读 · 2020年4月13日
Liang Chen,Jintang Li,Jiaying Peng,Tao Xie,Zengxu Cao,Kun Xu,Xiangnan He,Zibin Zheng
34+阅读 · 2020年3月10日
Object-Contextual Representations for Semantic Segmentation
Yuhui Yuan,Xilin Chen,Jingdong Wang
6+阅读 · 2019年11月19日
BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction
Weipeng Huang,Xingyi Cheng,Taifeng Wang,Wei Chu
4+阅读 · 2019年9月26日
Xuelu Chen,Muhao Chen,Weijia Shi,Yizhou Sun,Carlo Zaniolo
4+阅读 · 2018年11月26日
Srinivas Ravishankar, Chandrahas,Partha Pratim Talukdar
6+阅读 · 2018年1月8日
Top
微信扫码咨询专知VIP会员