【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准 - 专知

会员服务 ·

0

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

2022 年 1 月 6 日 专知

视觉跟踪是计算机视觉领域的一个重要问题，在视觉监控、智能交通、机器人等视觉系统中发挥着重要作用。然而，现有的跟踪方法往往基于 RGB 图像序列，这些序列对亮度的变化非常敏感，因此一些目标在弱光条件下是无效的。在这种情况下，现有方法的跟踪性能可能会显著降低。

https://www.zhuanzhi.ai/paper/c6cc2d20fe3e758d83a8decbbc882956

引入诸如深度和红外数据等其他方式是处理单个源成像局限性的有效方法，但多模态成像平台通常需要精心设计，目前无法应用于许多现实应用中。近红外(NIR)成像是许多监控摄像机的重要组成部分，其成像可以根据光照强度在 RGB 和 NIR 之间切换。这两种方式是异质的，具有不同的视觉特性，因此给视觉跟踪带来了巨大的挑战。然而，现有的研究工作尚未对这一具有挑战性的问题进行研究。那么如何设计一种合适的算法，以缓解RGB和NIR模式之间的外观差距，并灵活地嵌入到不同的跟踪框架中，实现鲁棒的跨模式目标跟踪？如何创建视频基准数据集以促进跨模态目标跟踪的研究和发展？

在这项工作中，我们解决了跨模态目标跟踪课题，并提出了一个新的视频数据集CMOTB，包括654个跨模态图像序列，总帧数超过486k，平均视频长度超过735帧。为了促进跨模态目标跟踪的研究和发展，我们提出了一个新的即插即用模块。该模块学习感知模态的目标表示，以减少在跟踪过程中 RGB 和 NIR 不同模态之间的外观差距，可以灵活地嵌入不同的跟踪框架中。在我们提出的数据集上进行了广泛的实验，证明了所提出的模块对于两个代表性的跟踪框架，即 dimp-50和 RT-MDNet 上的17种最先进的跟踪方法的有效性。

图1 跨模态相机成像示例及典型跟踪器跟踪结果

图2 跟踪器框架图

图3 不同跟踪器的结果比较

表1 不同属性上的性能对比

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CMOT” 就可以获取《【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

0

相关内容

跨模态目标跟踪

跨模态目标跟踪

【CVPR2022】GaTector：凝视对象预测的统一框架

【CVPR2022】GaTector：凝视对象预测的统一框架

专知会员服务

10+阅读 · 2022年3月24日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】GaTector：凝视对象预测的统一框架

【CVPR2022】GaTector：凝视对象预测的统一框架

专知

0+阅读 · 2022年3月24日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

融合视觉特性的基于深度图像自由视点绘制技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

激光焊接中窄焊缝特征解耦检测及多约束的视觉跟踪

国家自然科学基金

0+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

Automated Audio Captioning using Audio Event Clues

Arxiv

0+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

14+阅读 · 2019年8月8日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员

相关主题

跨模态目标跟踪

相关VIP内容

【CVPR2022】GaTector：凝视对象预测的统一框架

【CVPR2022】GaTector：凝视对象预测的统一框架

专知会员服务

10+阅读 · 2022年3月24日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

生成式人工智能导论：可靠性、负责任开发及实际应用（第二版）

《2025财年美陆军转型倡议（ATI）部队结构与组织提案》

【CMU博士论文】分布偏移下的可信机器学习

智能体 EDA 的曙光：自主数字芯片设计综述

相关资讯

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】GaTector：凝视对象预测的统一框架

【CVPR2022】GaTector：凝视对象预测的统一框架

专知

0+阅读 · 2022年3月24日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

相关基金

视觉信息的局部特征表示及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合目标感知与对比度的图像和视频显著性检测技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

融合视觉特性的基于深度图像自由视点绘制技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

激光焊接中窄焊缝特征解耦检测及多约束的视觉跟踪

国家自然科学基金

0+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Automated Audio Captioning using Audio Event Clues

Arxiv

0+阅读 · 2022年4月18日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

14+阅读 · 2019年8月8日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

大家都在搜

MIT博士论文

分布式事务

蓝牙安全攻防

GitHub上已超过

微信扫码咨询专知VIP会员