Most recent methods used for crowd counting are based on the convolutional neural network (CNN), which has a strong ability to extract local features. But CNN inherently fails in modeling the global context due to the limited receptive fields. However, the transformer can model the global context easily. In this paper, we propose a simple approach called CCTrans to simplify the design pipeline. Specifically, we utilize a pyramid vision transformer backbone to capture the global crowd information, a pyramid feature aggregation (PFA) model to combine low-level and high-level features, an efficient regression head with multi-scale dilated convolution (MDC) to predict density maps. Besides, we tailor the loss functions for our pipeline. Without bells and whistles, extensive experiments demonstrate that our method achieves new state-of-the-art results on several benchmarks both in weakly and fully-supervised crowd counting. Moreover, we currently rank No.1 on the leaderboard of NWPU-Crowd. Our code will be made available.


翻译:最近的人群计数方法基于具有很强提取本地特征能力的连锁神经网络(CNN ) 。 但是CNN在建模全球背景方面注定失败, 原因是可接收域有限。 但是, 变压器可以很容易地建模全球背景 。 在本文中, 我们提出一个简单的方法, 叫做 CCTrans 来简化设计管道。 具体地说, 我们使用金字塔的视觉变压器主干网来捕捉全球人群信息, 一个金字塔特征集合模型, 将低层次和高层次特征结合起来, 一个高效的回归头, 具有多尺度的扩展式共振动( MDC ) 来预测密度地图 。 此外, 我们为输油管定制了损失功能。 没有钟声和哨子, 广泛的实验表明我们的方法在几个基准上取得了新的最新效果, 包括弱和完全监控的人群计数。 此外, 我们目前将位于 NWPU rowd 的首板上排名第 1号。 我们的代码将会被提供 。

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
专知会员服务
23+阅读 · 2021年9月20日
专知会员服务
61+阅读 · 2021年2月16日
最新《Transformers模型》教程,64页ppt
专知会员服务
320+阅读 · 2020年11月26日
专知会员服务
45+阅读 · 2020年10月31日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
107+阅读 · 2020年8月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年8月21日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年11月18日
Arxiv
17+阅读 · 2021年3月29日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年9月20日
专知会员服务
61+阅读 · 2021年2月16日
最新《Transformers模型》教程,64页ppt
专知会员服务
320+阅读 · 2020年11月26日
专知会员服务
45+阅读 · 2020年10月31日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
107+阅读 · 2020年8月30日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年8月21日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员