CVPR是计算机视觉领域三大顶会中唯一一个年度学术会议。在快速更新迭代的计算机学科中,CVPR成为了计算机视觉领域的“顶级流量”。而在过去的这些年间,CVPR也有着许多的变化。在十多年前,CVPR不过1500人的参会规模,到了2019年参会人数已经超过了6500人,投稿数量也年年增长。

虽然CVPR每年都会评选出最佳论文,但我们今天将从另一个角度来评选CVPR这二十年来的TOP10。即以Web of Science上显示的论文的引用量作为论文影响力的参考,排列出近二十年来影响力最大的十篇论文。接下来我们将依次进行介绍。

TOP10 Rethinking the Inception Architecture for Computer Vision CVPR 2016

作者:Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jon Shlens,Zbigniew Wojna

机构:Google,伦敦大学

被引频次:4751

这篇论文又被称为Inception-v3,是GoogLeNet(Inception-v1)的延伸。GoogLeNet首次出现于2014年ILSVRC 比赛,并在当年的比赛中获得了冠军。Inception-v1的参数量远小于同期VGGNet,而性能却与之基本持平。相较于Inception-v1,Inception-v3做出的主要改进则是将卷积进行非对称拆分,以显著降低参数量,同时使得空间特征更为丰富。

TOP9 Densely Connected Convolutional Networks CVPR 2017

作者:Gao Huang,Zhuang Liu,Laurens van der Maaten,Kilian Q. Weinberger

机构:康奈尔大学,清华大学,Facebook AI Research

被引频次:5181

DenseNet也是CVPR2017的最佳论文之一。在当时的神经网络模型都遇到一个问题:随着网路层数的加深,训练过程中的前传信号和梯度信号在经过很多层之后可能会逐渐消失。而DenseNet的核心思想解决了这一问题。它对前每一层都加一个单独的 shortcut,使得任意两层网络都可以直接“沟通”。

而DenseNet的不足之处在于它的内存占用十分庞大。但瑕不掩瑜,DenseNet以其极具创新性的思路,不仅显著减轻了深层网络在训练过程中梯度消散而难以优化的问题,同时也取得了非常好的性能。

TOP8 You Only Look Once: Unified, Real-Time Object Detection CVPR 2016

作者:Joseph Redmon,Santosh Divvala,Ross Girshick,Ali Farhadiq

机构:华盛顿大学,Allen Institute for AI,Facebook AI Research

被引频次:5295

这一篇论文就是在目标检测领域大名鼎鼎的YOLO。其最新的版本已经更新到了YOLOv5,且每一代的发布都能在行业内卷齐新的热潮。

用YOLO的英文直译解释这一方法,就是只需要浏览一次就能识别出图中的物体的类别和位置。展开来说,YOLO的核心思想就是将目标检测转化为回归问题求解,并基于一个单独的端到端网络,完成从原始图像的输入到物体位置和类别的输出。这使得网络结构简单,且极大提升了检测速度。由于网络没有分支,所以训练也只需要一次即可完成。之后的很多检测算法都借鉴了这一思路。

TOP7 Rich feature hierarchies for accurate object detection and semantic segmentation CVPR 2014

作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik

机构:加利福尼亚大学伯克利分校

被引频次:6876

这篇文章的排名在YOLO之前,既合理又巧妙。因为在YOLO之前,目标检测领域可以说是RCNN的世界。RCNN是将CNN引入目标检测的开山之作,它改变了目标检测领域的主要研究思路。紧随其后的系列文章,如Fast RCNN和Faster RCNN等,都代表了该领域当时的最高水准。

在RCNN前经典的目标检测算法是使用滑动窗法依次判断所有可能的区域,而RCNN则采用Selective Search方法预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,这使得检测的速度大大提升。

TOP6 Rapid object detection using a boosted cascade of simple features CVPR 2001

作者:Paul Viola,Michael Jones

机构:三菱电气实验室 ,康柏剑桥研究实验室

被引频次:7033

这篇论文是本次盘点中最先发表的一篇,比其他九篇文章都早了十年左右,它在传统人脸检测中具有里程碑意义,因而本文提出的思想聚焦于传统的目标检测。

这篇论文主要解决了三个问题:一是减少了计算特征的时间,二是构建了简单又很有效的单分支决策树分类器,最后是从简单到复杂把多个分类器级联,对可能包含人脸的区域进行重点检测,从而显著提升了检测速度。

TOP5 Going Deeper with Convolutions CVPR 2015

作者:Christian Szegedy,Dragomir Anguelov, Dumitru Erhan,Vincent Vanhoucke,Yangqing Jia,Pierre Sermanet,Wei Liu,Scott Reed,Andrew Rabinovich

机构:Google,北卡罗来纳大学,密歇根大学

发布时间:2015年

被引频次:7269

可能大家已经发现了亮点,这篇论文的系列工作在前面就出现过。这篇论文就是开辟Inception家族,并在CNN分类器发展史上留下浓墨重彩的一笔的GoogLeNet。

在 Inception 出现之前,大部分流行 CNN 是将卷积层不断堆叠,让网络越来越深来得到更好的性能。而GoogLeNet 最大的特点就是使用 Inception 模块,并设计一种具有优良局部拓扑结构的网络,对输入图像并行地执行多个卷积运算或池化操作,将所有输出结果拼接为一个非常深的特征图。通过这种方式,GoogLeNet取得了非常惊艳的效果。

TOP4 ImageNet: A Large-Scale Hierarchical Image Database CVPR 2009

作者:Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,Li Fei-Fei

机构:普林斯顿大学

发布时间:2009年

被引频次:8222

ImageNet是AI女神李飞飞团队构建的计算机视觉领域非常著名的海量的带标注图像数据集。它在图像分类、目标分割和目标检测中都有着无法撼动的地位。ImageNet从 2007 年开始到 2009 年完成,有超过 1500 万张图片。

可以毫不夸张的说,ImageNet 是图像处理算法的试金石。另外,从 2010 年起,每年 ImageNet 官方会举办挑战赛。Hinton团队提出的AlexNet也是在2012年的ImageNet挑战赛上一举成名,自此深度学习的热潮被点燃。

TOP3 Fully Convolutional Networks for Semantic Segmentation CVPR 2015

作者:Jonathan Long,Evan Shelhamer,Trevor Darrell

发布时间:2015年

被引频次:9027

FCN在我们之前盘点的图像分割TOP10中就出现过,并高居第一位。作为语义分割的开山之作,无论是图像分割TOP1,还是CVPRTOP3,FCN都是当之无愧的。FCN所提出的全卷积网络的概念,开创了用FCN做实例和像素级别理解系列方法的先河。后续非常多的方法都受到了FCN的思路启发。FCN的提出为目标识别、检测与分割也都做出了巨大的贡献。

TOP2 Histograms of oriented gradients for human detection CVPR 2005

作者:Navneet Dalal,Bill Triggs

被引频次:13389

图片 这篇论文所提出的方法简称HOG,是一种是非常经典的图像特征提取方法,在行人识别领域被应用得尤为多。虽然文章已经发表了十五年,但仍然常常被人们用于最新工作的思路参考。HOG将图像分成小的连通区域,将它称为细胞单元,然后采集细胞单元中各像素点的梯度的或边缘的方向直方图,把这些直方图组合起来就可以构成特征描述器。

TOP1 Deep Residual Learning for Image Recognition CVPR2016

作者:Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

被引频次:32065

这篇论文作为第一名,的确是当之无愧。作为CVPR2016的最佳论文,它所提出的ResNet不仅在计算机视觉领域,而是在深度学习领域中都带来了颠覆式影响。

在当年,ResNet横扫 ImageNet 2015和COCO 榜单。也是从ResNet开始,神经网络在视觉分类任务上的性能第一次超越了人类。它也让当时第二次获得CVPR Best Paper的何恺明正式踏上了大神之路。

最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题,它将输入从卷积层的每个块添加到输出,让每一层更容易学习恒等映射,并且还减少了梯度消失的问题。而如今,残差模块已经成为几乎所有 CNN 结构中的基本构造。

最后,我们来进行一下简要地总结。虽然本次盘点的是20年内CVPRTOP10,但是有超过半数的论文都是在近十年发表的,由此可以窥见深度学习在近年来的飞跃式发展。因此我们可以期待在未来的计算机视觉领域,一定会有更多更强的工作,为我们的科研与生活带来更快更好的提升。

参考资料

[1] https://zhuanlan.zhihu.com/p/41691301 [2] https://www.zhihu.com/question/60109389/answer/203099761 [3] https://zhuanlan.zhihu.com/p/31427164 [4] https://zhuanlan.zhihu.com/p/23006190 [5] https://blog.csdn.net/weixin_37763809/article/details/88256828 [6] https://zhuanlan.zhihu.com/p/37505777 [7] https://zhuanlan.zhihu.com/p/77221549 [8] https://www.zhihu.com/question/433702668/answer/1617092684 [9] https://blog.csdn.net/zouxy09/article/details/7929348 [10] https://www.jiqizhixin.com/articles/2020-01-01

成为VIP会员查看完整内容
0
37

相关内容

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都会吸引全球领域众多专业人士参与。CVPR 2021将在线举行, 中国科学院院士、中科院自动化所智能感知与计算研究中心主任谭铁牛将出任大会主席(General Chair,GC),上海科技大学的虞晶怡教授将任程序主席(Program Chair,PC)。今年的CVPR有效投稿多达7500篇,一共有1663篇论文被接收,接收率为27%。

为此,专知小编提前为大家整理了五篇CVPR 2021视觉目标检测(Object Detection)相关论文,让大家先睹为快——开放域目标检测、实例蒸馏、多实例主动学习、自监督多目标检测、少样本目标检测

1. Towards Open World Object Detection

作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian

摘要:人类具有识别其环境中未知目标实例的本能。当相应的知识最终可用时,对这些未知实例的内在好奇心有助于学习它们。这促使我们提出了一个新颖的计算机视觉问题:“开放世界目标检测”,该模型的任务是:1)在没有明确监督的情况下将尚未引入该目标的目标识别为“未知”,以及2)当逐渐接收到相应的标签时,逐步学习这些已识别的未知类别,而不会忘记先前学习的类别。我们提出了问题,引入了强大的评价准则并提供了一种新颖的解决方案,我们称之为ORE:基于对比聚类和基于能量的未知标识的开放世界目标检测器。我们的实验评估和消去实验研究分析了ORE在实现开放世界目标方面的功效。作为一个有趣的副产品,我们发现识别和表征未知实例有助于减少增量目标检测设置中的混乱,在此方法中,我们无需任何方法上的努力即可获得最先进的性能。我们希望我们的工作将吸引对这个新发现的但至关重要的研究方向的进一步研究。

图片 代码:

https://github.com/JosephKJ/OWOD

网址:

https://arxiv.org/abs/2103.02603

2. General Instance Distillation for Object Detection

作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou

摘要:近年来,知识蒸馏已被证明是模型压缩的有效解决方案。这种方法可以使轻量级的学生模型获得从繁琐的教师模型中提取的知识。但是,先前的蒸馏检测方法对于不同的检测框架具有较弱的概括性,并且严重依赖ground truth (GT),而忽略了实例之间有价值的关系信息。因此,我们提出了一种新的基于区分性实例检测任务的蒸馏方法,该方法不考虑GT区分出的正例或负例,这称为一般实例蒸馏(GID)。我们的方法包含一个通用实例选择模块(GISM),以充分利用基于特征的,基于关系的和基于响应的知识进行蒸馏。广泛的结果表明,在各种检测框架下,学生模型可显着提高AP的表现,甚至优于教师模型。具体来说,在Reconet上使用ResNet-50的RetinaNet在COCO数据集上具有GID的mAP达到了39.1%,比基线的36.2%超出了2.9%,甚至比具有38.1%的AP的基于ResNet-101的教师模型更好。

图片 网址:

https://arxiv.org/abs/2103.02340

3. Multiple Instance Active Learning for Object Detection

作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye

摘要:尽管主动学习(active learning)在图像识别方面取得了长足的进步,但仍然缺乏为目标检测任务设置的实例级主动学习方法。在本文中,我们提出了多实例主动学习(MIAL),通过观察实例级别的不确定性来选择信息量最大的图像进行检测器训练。MIAL定义了实例不确定性学习模块,该模块利用在标记集上训练的两个对抗性实例分类器的差异来预测未标记集的实例不确定性。MIAL将未标记的图像视为实例包,并将图像中的特征锚视为实例,并通过以多实例学习(MIL)方式对实例重新加权来估计图像不确定性。迭代实例不确定性学习和重新加权有助于抑制嘈杂的实例,以弥合实例不确定性和图像级不确定性之间的差距。实验证明,MIAL为实例级的主动学习设置了坚实的基准。在常用的目标检测数据集上,MIAL具有明显的优势,优于最新方法,尤其是在标记集很小的情况下。

图片 代码:

https://github.com/yuantn/MIAL

4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge

作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada

摘要:目标固有的声音属性可以提供有价值的线索,以学习丰富的表示形式来进行目标检测和跟踪。此外,可以通过仅监视环境中的声音来利用视频中视听事件的共现来在图像上定位目标。到目前为止,这仅在摄像机静止且用于单个目标检测的情况下才可行。此外,这些方法的鲁棒性受到限制,因为它们主要依赖于高度易受光照和天气变化影响的RGB图像。在这项工作中,我们提出了一种新颖的自监督的MM-DistillNet框架,该框架由多名教师组成,这些教师利用RGB,深度和热图像等多种模式,同时利用互补线索和提炼知识到单个音频学生网络中。我们提出了新的MTA损失函数,该函数有助于以自监督的方式从多模态教师中提取信息。此外,我们为有声读物的学生提出了一种新颖的自监督的前置任务,使我们不必依赖劳动强度大的人工注释。我们引入了一个大型多模态数据集,其中包含113,000多个时间同步的RGB,深度,热和音频模态帧。大量实验表明,我们的方法优于最新方法,同时能够在推理甚至移动过程中仅使用声音来检测多个目标。

图片 网址:

https://arxiv.org/abs/2103.01353

5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection

作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides

摘要:由于真实世界数据固有的长尾分布,少样本目标检测是当前非常需要研究的问题。它的性能在很大程度上受到新的类别数据匮乏的影响。但是,无论数据可用性如何,新颖类和基类之间的语义关系都是恒定的。在这项工作中,我们研究将这种语义关系与视觉信息一起使用,并将显式关系推理引入新颖目标检测的学习中。具体来说,我们通过从大型语料库中学到的语义嵌入来表示每个类的概念。检测要求将目标的图像表示投影到此嵌入空间中。我们发现如果仅仅使用启发式知识图谱作为原始嵌入是远远不够的,提出使用一种动态关系图来扩展原始嵌入向量。因此,我们提出的SRR-FSD的少样本检测器对于新目标的变化能够保持稳定的性能。实验表明,SRR-FSD可以在higher shots下获得还不错的结果,更重要地是,在较低的explicit shots和implicit shots的情况下,SRR-FSD的性能也要好得多。

图片 网址:

https://arxiv.org/abs/2103.01903

成为VIP会员查看完整内容
0
50

图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向,近些年,图像分割技术迅猛发展,在多个视觉研究领域都有着广泛的应用。本文盘点了近20年来影响力最大的 10 篇论文。

-TOP10- Mask R-CNN 被引频次:1839 作者:Kaiming He,Georgia Gkioxari,Piotr Dollar,Ross Girshick. 发布信息: 2017,16th IEEE International Conference on Computer Vision (ICCV) 论文:https://arxiv.org/abs/1703.06870 代码:https://github.com/facebookresearch/Detectron Mask R-CNN作为非常经典的实例分割(Instance segmentation)算法,在图像分割领域可谓“家喻户晓”。Mask R-CNN不仅在实例分割任务中表现优异,还是一个非常灵活的框架,可以通过增加不同的分支完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种不同的任务。

-TOP9- SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 被引频次:1937 作者: Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla 发布信息:2015,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 论文:https://arxiv.org/pdf/1511.00561.pdf 代码:https://github.com/aizawan/segnet SegNet是用于进行像素级别图像分割的全卷积网络。SegNet与FCN的思路较为相似,区别则在于Encoder中Pooling和Decoder的Upsampling使用的技术。Decoder进行上采样的方式是Segnet的亮点之一,SegNet主要用于场景理解应用,需要在进行inference时考虑内存的占用及分割的准确率。同时,Segnet的训练参数较少,可以用SGD进行end-to-end训练。

-TOP8- DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 被引频次:2160 作者: Chen Liang-Chieh,Papandreou George,Kokkinos Iasonas等. 发布信息:2018,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE DeepLabv1:https://arxiv.org/pdf/1412.7062v3.pdf DeepLabv2:https://arxiv.org/pdf/1606.00915.pdf DeepLabv3:https://arxiv.org/pdf/1706.05587.pdf DeepLabv3+:https://arxiv.org/pdf/1802.02611.pdf 代码:https://github.com/tensorflow/models/tree/master/research/deeplab DeepLab系列采用了Dilated/Atrous Convolution的方式扩展感受野,获取更多的上下文信息,避免了DCNN中重复最大池化和下采样带来的分辨率下降问题。2018年,Chen等人发布Deeplabv3+,使用编码器-解码器架构。DeepLabv3+在2012年pascal VOC挑战赛中获得89.0%的mIoU分数。

DeepLabv3+

-TOP7- Contour Detection and Hierarchical Image Segmentation 被引频次:2231 作者: Arbelaez Pablo,Maire Michael,Fowlkes Charless等. 发布信息:2011,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 论文和代码:https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html Contour Detection and Hierarchical Image Segmentation通过检测轮廓来进行分割,以解决不加交互的图像分割问题,是分割领域中非常重要的一篇文章,后续很多边缘检测算法都利用了该模型。

-TOP6- Efficient graph-based image segmentation 被引频次:3302 作者:Felzenszwalb PF,Huttenlocher DP 发布信息:2004,INTERNATIONAL JOURNAL OF COMPUTER VISION 论文和代码:http://cs.brown.edu/people/pfelzens/segment/ Graph-Based Segmentation 是经典的图像分割算法,作者Felzenszwalb也是提出DPM算法的大牛。该算法是基于图的贪心聚类算法,实现简单。目前虽然直接用其做分割的较少,但许多算法都用它作为基石。

-TOP5- SLIC Superpixels Compared to State-of-the-Art Superpixel Methods 被引频次:4168 作者: Radhakrishna Achanta,Appu Shaji,Kevin Smith,Aurelien Lucchi,Pascal Fua,Sabine Susstrunk. 发布信息:2012,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 论文和代码:https://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/index.html SLIC 算法将K-means 算法用于超像素聚类,是一种思想简单、实现方便的算法,SLIC算法能生成紧凑、近似均匀的超像素,在运算速度,物体轮廓保持、超像素形状方面具有较高的综合评价,比较符合人们期望的分割效果。

-TOP4- U-Net: Convolutional Networks for Biomedical Image Segmentation 被引频次:6920 作者: Ronneberger Olaf,Fischer Philipp,Brox Thomas 发布信息:2015,18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI) 代码:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/ U-Net是一种基于深度学习的图像语义分割方法,在医学图像分割领域表现尤为优异。它基于FCNs做出改进,相较于FCN多尺度信息更加丰富,同时适合超大图像分割。作者采用数据增强(data augmentation),通过使用在粗糙的3*3点阵上的随机取代向量来生成平缓的变形,解决了可获得的训练数据很少的问题。并使用加权损失(weighted loss)以解决对于同一类的连接的目标分割。

-TOP3- Mean shift: A robust approach toward feature space analysis 被引频次:6996 作者: Comaniciu D,Meer P 发布信息:2002,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE Meanshift是基于像素聚类的代表方法之一,是一种特征空间分析方法。密度估计(Density Estimation) 和mode 搜索是Meanshift的两个核心点。对于图像数据,其分布无固定模式可循,所以密度估计必须用非参数估计,选用的是具有平滑效果的核密度估计(Kernel density estimation,KDE)。Meanshift 算法的稳定性、鲁棒性较好,有着广泛的应用。但是分割时所包含的语义信息较少,分割效果不够理想,无法有效地控制超像素的数量,且运行速度较慢,不适用于实时处理任务。 -TOP2- Normalized cuts and image segmentation 被引频次:8056 作者:Shi JB,Malik J 发布信息:2000,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 论文:https://ieeexplore.ieee.org/abstract/document/1000236 NormalizedCut是基于图论的分割方法代表之一,与以往利用聚类的方法相比,更加专注于全局解的情况,并且根据图像的亮度,颜色,纹理进行划分。

-Top1- Fully Convolutional Networks for Semantic Segmentation 被引频次:8170 作者: Long Jonathan,Shelhamer Evan,Darrell Trevor 发布信息:2015,IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 代码:https://github.com/shelhamer/fcn.berkeleyvision.org FCN是图像分割领域里程碑式论文。作为语义分割的开山之作,FCN是当之无愧的TOP1。它提出了全卷积网络(FCN)的概念,针对语义分割训练了一个端到端,点对点的网络,它包含了三个CNN核心思想: (1)不含全连接层(fc)的全卷积(fully conv)网络。可适应任意尺寸输入。 (2)增大数据尺寸的反卷积(deconv)层。能够输出精细的结果。 (3)结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。

参考 [1]FCN的学习及理解(Fully Convolutional Networks for Semantic Segmentation),CSDN [2]mean shift 图像分割 (一),CSDN [3]https://zhuanlan.zhihu.com/p/49512872 [4]图像分割—基于图的图像分割(Graph-Based Image Segmentation),CSDN [5]https://www.cnblogs.com/fourmi/p/9785377.html

成为VIP会员查看完整内容
0
65

计算机视觉顶会 CVPR 2019 的论文接前几天公布了接受论文:在超过 5100 篇投稿中,共有 1300 篇被接收,达到了接近 25.2% 的接收率。近期结合图卷积网络相关的应用论文非常多,CVPR最新发布的论文也有很多篇,专知小编专门整理了最新五篇图卷积网络相关视觉应用论文—零样本学习、姿态估计、人脸聚类、交互式目标标注和视频异常检测。

1、Rethinking Knowledge Graph Propagation for Zero-Shot Learning(零样本学习中知识图传播的再思考)

作者:Michael Kampffmeyer, Yinbo Chen, Xiaodan Liang, Hao Wang, Yujia Zhang, Eric P. Xing

摘要:最近,图卷积神经网络在零样本学习任务中显示出了巨大的潜力。这些模型具有高度的采样效率,因为图结构中的相关概念共享statistical strength,允许在缺少数据时对新类进行泛化。然而,由于多层架构需要将知识传播到图中较远的节点,因此在每一层都进行了广泛的拉普拉斯平滑来稀释知识,从而降低了性能。为了仍然享受图结构带来的好处,同时防止远距离节点的知识被稀释,我们提出了一种密集图传播(DGP)模块,该模块在远端节点之间精心设计了直接链接。DGP允许我们通过附加连接利用知识图的层次图结构。这些连接是根据节点与其祖先和后代的关系添加的。为了提高图中信息的传播速度,进一步采用加权方案,根据到节点的距离对它们的贡献进行加权。结合两阶段训练方法中的表示的微调,我们的方法优于目前最先进的零样本学习方法。

网址: http://www.zhuanzhi.ai/paper/dd4945166583a26685faaad5322162f0

代码链接: https://github.com/cyvius96/adgpm

2、3D Hand Shape and Pose Estimation from a Single RGB Image(单一RGB图像的3D手形和姿态估计)

CVPR 2019 Oral

作者:Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, Yingying Wang, Jianfei Cai, Junsong Yuan

摘要:这项工作解决了一个新颖且具有挑战性的问题,从单一RGB图像估计完整3D手形和姿势。目前对单目RGB图像进行三维手部分析的方法大多只注重对手部关键点的三维位置进行估计,无法完全表达手部的三维形态。相比之下,我们提出了一种基于图卷积神经网络(Graph CNN)的方法来重建一个完整的手部三维网格,其中包含了更丰富的手部三维形状和姿态信息。为了训练具有完全监督的网络,我们创建了一个包含ground truth三维网格和三维姿态的大规模合成数据集。当在真实世界数据集上微调网络时(没有三维ground truth),我们提出了一种利用深度图作为训练弱监督的方法。通过对所提出的新数据集和两个公共数据集的广泛评估,表明我们所提出的方法能够生成准确合理的三维手部网格,与现有方法相比,能够获得更高的三维手部姿态估计精度。

网址: http://www.zhuanzhi.ai/paper/d167eade544143625933886e5cb34cf6

代码链接: https://github.com/geliuhao/3DHandShapePosefromRGB

3、Linkage Based Face Clustering via Graph Convolution Network(通过图卷积网络实现基于链接的人脸聚类)

作者:Zhongdao Wang,Liang Zheng,Yali Li,Shengjin Wang

摘要:本文提出了一种精确、可扩展的人脸聚类方法。我们的目标是根据一组人脸的潜在身份对它们进行分组。我们将这个任务描述为一个链接预测问题:如果两个面孔具有相同的身份,那么它们之间就存在一个链接。关键思想是,我们在实例(face)周围的特征空间中找到本地上下文,其中包含关于该实例及其邻居之间链接关系的丰富信息。通过将每个实例周围的子图构造为描述局部上下文的输入数据,利用图卷积网络(GCN)进行推理,并推断出子图中对之间链接的可能性。实验表明,与传统方法相比,我们的方法对复杂的人脸分布具有更强的鲁棒性,在标准人脸聚类基准测试上与最先进的方法具有良好的可比性,并且可扩展到大型数据集。此外,我们证明了该方法不像以前那样需要事先知道簇的数量,能够识别噪声和异常值,并且可以扩展到多视图版本,以获得更精确的聚类精度。

网址: http://www.zhuanzhi.ai/paper/e7ace43c7aafec56171283988e34aa8b

4、Fast Interactive Object Annotation with Curve-GCN(使用Curve-GCN进行快速交互式目标标注)

作者:Huan Ling, Jun Gao, Amlan Kar, Wenzheng Chen, Sanja Fidler

摘要:通过跟踪边界来手动标记对象是一个繁重的过程。 在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN体系结构以一种循环的方式生成多边形注释,允许通过人在环中进行交互式校正。我们提出了一个新的框架,通过使用图卷积网络(GCN)同时预测所有顶点,减轻了Polygon-RNN的时序性。我们的模型是端到端训练的。 它支持多边形或样条线的对象标注,从而提高了基于线和曲线对象的标注效率。 结果表明,在自动模式下,curv- gcn的性能优于现有的所有方法,包括功能强大的PSP-DeepLab,并且在交互模式下,curv - gcn的效率明显高于Polygon-RNN++。我们的模型在自动模式下运行29.3ms,在交互模式下运行2.6ms,比polyicon - rnn ++分别快10倍和100倍。

网址: http://www.zhuanzhi.ai/paper/c1839ee852a4b9b402da2547508980d3

代码链接: https://github.com/fidler-lab/curve-gcn

5、Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection(图卷积标签噪声清除器: 训练用于异常检测的Plug-and-play行为分类器)

作者:Jia-Xing Zhong, Nannan Li, Weijie Kong, Shan Liu, Thomas H. Li, Ge Li

摘要:在以往的工作中,弱标签下的视频异常检测被描述为一个典型的多实例学习问题。在本文中,我们提供了一个新的视角,即在嘈杂标签下的监督学习任务。在这样的观点中,只要去除标签噪声,就可以直接将全监督的动作分类器应用到弱监督异常检测中,并最大限度地利用这些完善的分类器。为此,我们设计了一个图卷积网络来校正噪声标签。基于特征相似性和时间一致性,我们的网络将监控信号从高置信度的片段传播到低置信度的片段。以这种方式,网络能够为动作分类器提供清洁的监督。在测试阶段,我们只需要从动作分类器获得片段预测,而无需任何额外的后处理。使用2种类型的动作分类器对3个不同尺度的数据集进行了大量实验,证明了我们的方法的有效性。值得注意的是,我们在UCF-Crime上获得了82.12%的帧级AUC分数。

网址: http://www.zhuanzhi.ai/paper/12c28bd5fcdb4fa91e63b11055bdcc4d

代码链接: https://github.com/jx-zhong-for-academic-purpose/GCN-Anomaly-Detection

下载链接:https://pan.baidu.com/s/1bK1UMRspsNcx6FxrtzNr3A 提取码:34p8

成为VIP会员查看完整内容
0
27
小贴士
相关VIP内容
相关论文
Lintao Peng,Liheng Bian,Tiexin Liu,Jun Zhang
0+阅读 · 6月9日
Binan Gu,Lou Kondic,Linda J. Cummings
0+阅读 · 6月7日
Kai Wang,Shuo Wang,Zhipeng Zhou,Xiaobo Wang,Xiaojiang Peng,Baigui Sun,Hao Li,Yang You
0+阅读 · 6月4日
Wenqi Fan,Yao Ma,Qing Li,Yuan He,Eric Zhao,Jiliang Tang,Dawei Yin
14+阅读 · 2019年11月23日
Labeling Panoramas with Spherical Hourglass Networks
Carlos Esteves,Kostas Daniilidis,Ameesh Makadia
3+阅读 · 2018年9月6日
High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,Andrew Tao,Jan Kautz,Bryan Catanzaro
3+阅读 · 2018年8月20日
Character-Level Feature Extraction with Densely Connected Networks
Chanhee Lee,Young-Bum Kim,Dongyub Lee,HeuiSeok Lim
5+阅读 · 2018年7月26日
Tu Vu,Baotian Hu,Tsendsuren Munkhdalai,Hong Yu
3+阅读 · 2018年4月20日
Holger R. Roth,Hirohisa Oda,Xiangrong Zhou,Natsuki Shimizu,Ying Yang,Yuichiro Hayashi,Masahiro Oda,Michitaka Fujiwara,Kazunari Misawa,Kensaku Mori
9+阅读 · 2018年3月14日
Jinsong Su,Shan Wu,Deyi Xiong,Yaojie Lu,Xianpei Han,Biao Zhang
5+阅读 · 2018年1月16日
Top