Feature pyramids have been proven powerful in image understanding tasks that require multi-scale features. State-of-the-art methods for multi-scale feature learning focus on performing feature interactions across space and scales using neural networks with a fixed topology. In this paper, we propose graph feature pyramid networks that are capable of adapting their topological structures to varying intrinsic image structures and supporting simultaneous feature interactions across all scales. We first define an image-specific superpixel hierarchy for each input image to represent its intrinsic image structures. The graph feature pyramid network inherits its structure from this superpixel hierarchy. Contextual and hierarchical layers are designed to achieve feature interactions within the same scale and across different scales. To make these layers more powerful, we introduce two types of local channel attention for graph neural networks by generalizing global channel attention for convolutional neural networks. The proposed graph feature pyramid network can enhance the multiscale features from a convolutional feature pyramid network. We evaluate our graph feature pyramid network in the object detection task by integrating it into the Faster R-CNN algorithm. The modified algorithm outperforms not only previous state-of-the-art feature pyramid-based methods with a clear margin but also other popular detection methods on both MS-COCO 2017 validation and test datasets.


翻译:事实证明,在需要多种规模特征的图像理解任务方面,地貌金字塔被证明具有强大的功能。多尺度地貌学习的先进方法侧重于利用固定地形的神经网络在空间和尺度上进行特征互动。在本文件中,我们提议了图形地貌金字塔网络,这些网络能够调整其表层结构,使之适应不同的内在图像结构,并支持所有尺度的同步特征互动。我们首先为每个输入图像确定一个图像特定的超级像素等级,以代表其固有的图像结构。图形地貌金字塔网络从超级像素等级中继承其结构。上层和上层层旨在在同一尺度和不同尺度上实现特征互动。为了使这些层次更强大,我们为图形神经网络引入了两种本地频道关注,即通过将全球频道注意力普遍用于进化神经网络,增强进化神经网络的同步结构;我们首先为每个输入图像图像图像图像的图案金字塔网络确定一个多级特征。我们通过将它纳入更快的 R-CN 算法来评估目标探测任务中的图形金字网。经过修改的算法外外外,而且不仅在以前的州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州- 州

1
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
【北京大学】CVPR 2020 | PQ-NET:序列化的三维形状生成网络
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
6+阅读 · 2018年7月9日
Arxiv
4+阅读 · 2018年6月14日
Arxiv
4+阅读 · 2018年3月19日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
【北京大学】CVPR 2020 | PQ-NET:序列化的三维形状生成网络
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员