最近提出的DETR,以消除在目标检测中许多手工设计的组件的需要,同时显示良好的性能。但由于Transformer注意模块在处理图像特征图时的局限性,导致收敛速度慢,特征空间分辨率有限。为了减轻这些问题,我们提出了可变形的DETR,其注意力模块只关注参考点周围的一小组关键采样点。可变形的DETR比DETR(特别是在小物体上)可以获得更好的性能,训练周期少10个。在COCO数据集上的大量实验证明了我们的方法的有效性。

成为VIP会员查看完整内容
0
25

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

视频通常有多种形式的数据,如音频、视频、文本(字幕)。理解和建模不同模态之间的交互是视频分析任务的关键,如分类,目标检测,活动识别等。然而,数据模态并不总是相关的——因此,了解模态何时相关并使用它来引导一种模态对另一种模态的影响是至关重要的。视频的另一个显著特征是连续帧之间的连贯性,这是由于视频和音频的连续性,我们称之为时间连贯性。我们展示了如何使用非线性引导的跨模态信号和时间相干性来提高多模态机器学习(ML)模型在视频分析任务(如分类)中的性能。我们在大规模YouTube-8M数据集上的实验表明,我们的方法在视频分类方面显著优于最先进的多模式ML模型。在YouTube-8M数据集上训练的模型,在不需要再训练和微调的情况下,在一个来自实际电视频道的视频片段的内部数据集上也表现出了良好的性能,显示了我们的模型较强的泛化能力。

成为VIP会员查看完整内容
0
50

针对自监督学习的深度聚类是无监督视觉表示学习中一个非常重要和有前途的方向,因为设计前置任务需要较少的领域知识。而关键组件嵌入聚类由于需要保存整个数据集的全局潜在嵌入,限制了其扩展到超大规模的数据集。在这项工作中,我们的目标是使这个框架在不降低性能的情况下更加简单和优雅。提出了一种不使用嵌入聚类的无监督图像分类框架,与标准的监督训练方法非常相似。为了进一步解释,我们进一步分析了其与深度聚类和对比学习的关系。在ImageNet数据集上进行了大量的实验,验证了该方法的有效性。此外,在迁移学习基准上的实验验证了它对其他下游任务的推广,包括多标签图像分类、目标检测、语义分割和小样本图像分类。

地址:

https://arxiv.org/abs/2006.11480

成为VIP会员查看完整内容
0
61

目标检测和数据关联是多目标跟踪系统的关键组成部分。尽管这两个组件高度依赖于彼此,但MOT中的一个流行趋势是将检测和数据关联作为单独的模块执行,并按级联顺序处理。由于这种级联过程,所生成的MOT系统只能执行前向推理,而不能将错误反向传播到整个管道并进行纠正。这导致整个管道的性能低于最佳水平。为了解决这个问题,最近的工作联合优化了检测和数据关联,并形成了一个综合的MOT方法,已被证明提高了检测和跟踪的性能。为此,我们提出了一种基于图神经网络(GNNs)的联合MOT方法。该方法的关键思想是,GNNs能够在空间和时间域内显式地建模多个目标之间的复杂交互,这对于学习识别特征进行检测和数据关联至关重要。我们还利用了运动特征与外观特征一起使用时对MOT有用这一事实。因此,我们提出的联合MOT方法也将外观和运动特征纳入我们的基于图的特征学习框架,从而使MOT更好地学习特征。在MOT挑战数据集上的大量实验表明,我们提出的方法在目标检测和MOT检测上都取得了最先进的性能。

成为VIP会员查看完整内容
0
32

主题: TIMME-Twitter Ideology-detection via Multi-task Multi-relational Embedding

摘要: 跨平台帐户匹配在社交网络分析中起着重要作用,并且有利于广泛的应用。但是,现有方法要么严重依赖高质量的用户生成内容(包括用户配置文件),要么遭受数据不足的问题为了解决这一问题,我们提出了一种新颖的框架,该框架同时考虑了本地网络结构和超图结构上的多级图卷积。所提出的方法克服了现有工作的数据不足的问题,并且不必依赖于用户人口统计信息。此外,为了使所提出的方法能够处理大规模社交网络,我们提出了一种两阶段空间调节机制,以在基于网络分区的并行训练和不同社交网络上的帐户匹配中对齐嵌入空间。在两个大型的现实生活社交网络上进行了广泛的实验。实验结果表明,所提出的方法在很大程度上优于最新模型。

成为VIP会员查看完整内容
0
13

End-to-End Object Detection with Transformers

论文:https://arxiv.org/abs/2005.12872

代码:https://github.com/facebookresearch/detr

本文已提交至ECCV 2020,作者团队:Facebook AI Research。FAIR提出DETR:基于Transformers的端到端目标检测,没有NMS后处理步骤、真正的没有anchor,直接对标且超越Faster R-CNN,代码刚刚开源!

注:开源24小时,star数已高达700+!

简介

本文提出了一种将目标检测视为direct set直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了对许多手工设计的组件的需求,例如非极大值抑制(NMS)或锚点生成,这些组件明确编码了我们对任务的先验知识。

这种称为Detection Transformer或DETR的新框架的主要组成部分是基于集合的全局损失函数,该损失函数通过二分匹配和transformer编码器-解码器体系结构强制进行唯一的预测。给定一个固定的学习对象查询的小集合,DETR会考虑目标对象与全局图像上下文之间的关系,并直接并行输出最终的预测集合。

与许多其他现代检测器不同,新模型在概念上很简单,并且不需要专门的库。DETR与具有挑战性的COCO对象检测数据集上公认的且高度优化的Faster R-CNN baseline具有同等的准确性和运行时性能。此外,可以很容易地将DETR迁移到其他任务例如全景分割。

本文的Detection Transformer(DETR,请参见图1)可以预测所有物体的剧烈运动,并通过设置损失函数进行端到端训练,该函数可以在预测的物体与地面真实物体之间进行二分匹配。DETR通过删除多个手工设计的后处理过程例如nms,对先验知识进行编码的组件来简化检测流程。与大多数现有的检测方法不同,DETR不需要任何自定义层,因此可以在包含标准CNN和转换器类的任何框架中轻松复制。

DETR的主要特征是二分匹配损失和具有(非自回归)并行解码的Transformer的结合。

参考: https://mp.weixin.qq.com/s/b5Ont9vHPeCPnAjuDGv5Bg

成为VIP会员查看完整内容
0
41

题目: Context-Transformer: Tackling Object Confusion for Few-Shot Detection

摘要:

小样本目标检测是一个具有挑战性但又很现实的场景,只有少数带注释的训练图像可用于训练检测器。处理这个问题的一个流行的方法是迁移学习,对在源域基准上预先训练的检测器进行微调。然而,由于训练样本的数据多样性较低,这种转移的检测器往往不能识别目标域中的新对象。为了解决这一问题,我们提出了一个新颖的上下文转换器:一个简洁的深层传输框架。具体来说,Context-Transformer可以有效地利用源域对象知识作为指导,并自动地从目标域中的少量训练图像中挖掘上下文。然后,自适应地整合这些相关线索,增强检测器的识别能力,以减少在小样本场景下的目标混淆。此外,上下文转换器灵活地嵌入到流行的ssd风格的检测器中,这使得它成为端到端小样本学习的即插即用模块。最后,我们评估了上下文转换器对小样本检测和增量小样本检测的挑战性设置。实验结果表明,我们的框架比目前最先进的方法有更好的性能。

成为VIP会员查看完整内容
0
45

近年来,自适应目标检测的研究取得了令人瞩目的成果。尽管对抗性自适应极大地增强了特征表示的可迁移性,但对目标检测器的特征鉴别能力的研究却很少。此外,由于目标的复杂组合和域之间的场景布局的差异,在对抗性适应中,可迁移性和可辨别性可能会产生矛盾。本文提出了一种层级可迁移性校准网络(HTCN),该网络通过对特征表示的可迁移性进行分级(局部区域/图像/实例)校准来协调可迁移性和可识别性。该模型由三部分组成:(1)输入插值加权对抗性训练(iwati),通过重新加权插值后的图像级特征,增强了全局识别力;(2)上下文感知实例级对齐(context -aware Instance-Level Alignment, CILA)模块,该模块通过捕获实例级特征与实例级特征对齐的全局上下文信息之间的潜在互补效应,增强了局部识别能力;(3)校准局部可迁移性的局部特征掩码,为后续判别模式对齐提供语义指导。实验结果表明,在基准数据集上,HTCN的性能明显优于最先进的方法。

成为VIP会员查看完整内容
0
20
小贴士
相关VIP内容
专知会员服务
32+阅读 · 2020年6月24日
相关资讯
2019最全目标检测指南
计算机视觉life
11+阅读 · 2019年10月22日
做目标检测,这一篇就够了!2019最全目标检测指南
机器学习算法与Python学习
27+阅读 · 2019年9月11日
总结-空洞卷积(Dilated/Atrous Convolution)
极市平台
33+阅读 · 2019年2月25日
MSRA视觉组可变形卷积网络升级!更高性能,更强建模能力
未来产业促进会
5+阅读 · 2018年11月29日
ECCV 2018 | Bi-box行人检测:‘行人遮挡’为几何?
极市平台
12+阅读 · 2018年9月30日
ECCV 2018 | OR-CNN行人检测:为‘遮挡’而生
极市平台
6+阅读 · 2018年9月21日
相关论文
Clustered Object Detection in Aerial Images
Fan Yang,Heng Fan,Peng Chu,Erik Blasch,Haibin Ling
4+阅读 · 2019年8月27日
Object Detection in 20 Years: A Survey
Zhengxia Zou,Zhenwei Shi,Yuhong Guo,Jieping Ye
38+阅读 · 2019年5月13日
TensorMask: A Foundation for Dense Object Segmentation
Xinlei Chen,Ross Girshick,Kaiming He,Piotr Dollár
9+阅读 · 2019年3月28日
Augmentation for small object detection
Mate Kisantal,Zbigniew Wojna,Jakub Murawski,Jacek Naruniec,Kyunghyun Cho
8+阅读 · 2019年2月19日
Scale-Aware Trident Networks for Object Detection
Yanghao Li,Yuntao Chen,Naiyan Wang,Zhaoxiang Zhang
4+阅读 · 2019年1月7日
Geometry-Based Multiple Camera Head Detection in Dense Crowds
Nicola Pellicanò,Emanuel Aldea,Sylvie Le Hégarat-Mascle
3+阅读 · 2018年8月2日
Pengchong Jin,Vivek Rathod,Xiangxin Zhu
6+阅读 · 2018年7月9日
Zeming Li,Chao Peng,Gang Yu,Xiangyu Zhang,Yangdong Deng,Jian Sun
4+阅读 · 2018年4月17日
Changzheng Zhang,Xiang Xu,Dandan Tu
5+阅读 · 2018年2月6日
Alexandre Attia,Sharone Dayan
3+阅读 · 2018年1月19日
Top