ICCV19 (Oral) | 基于贝叶斯损失函数的人群计数

会员服务 ·

ICCV19 (Oral) | 基于贝叶斯损失函数的人群计数

2020 年 4 月 12 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文作者：洪晓鹏

https://zhuanlan.zhihu.com/p/127956794

本文已由原作者授权，不得擅自二次转载

文章作者：马智恒、魏星、洪晓鹏、龚怡宏

中文文字：洪晓鹏、马智恒

Zhiheng Ma, Xing Wei, Xiaopeng Hong, and Gong, Yihong. Bayesian Loss for Crowd Count Estimation with Point Supervision. In Proceedings of the international conference on computer vision, (ICCV-19), pp. 6142-6151, 2019.

本文发表于ICCV 2019，由西安交通大学龚怡宏、洪晓鹏团队提出。这篇简短的介绍由本人讲座的稿件整理而成。我们希望通过它能够让更多的同行了解和关注我们的方法，并提出宝贵意见。

基于机器视觉的目标计数在规模估算、密集目标的快速定位、人流估计、场景监控等方面有着广泛的应用前景。不过由于密集目标之间往往存在大量的重叠和遮挡；而且透视成像效果导致目标之间在大小、形状方面会发生较大变化，时至今日目标计数依然是一项非常具有挑战性的任务。

基本思路与创新点

现有的基于目标检测的目标计数方法无法有效地检测稠密区域中的每一个目标，因此在精确计数方面存在着很大的困难。尽管最近使用卷积神经网络（CNN）的目标计数方法取得了显着进展，但正如图1所示，传统方法在训练时通常需要从提供的输入图像“点”标注“生成”真值（Ground Truth）密度图，并以其作为监督信号，与模型预测得到的密度图一起用来计算相应的损失（Loss），进行直接的密度回归估计。从点标注生成真值密度图的过程需要对点标注作简单的高斯假设，进行模糊处理从而生成可用于训练监督的像素级真值概率密度。然而，由于目标之间高度的拥挤与重叠，通过上述方法生成的概率密度仅仅是对实际概率密度图的一个粗略逼近，其准确度是很难保证的。此外，由于目标大小信息往往无法获得，因此在对每个标注点高斯假设时无法准确获得每个目标对应的高斯分布标准差，因此只能把不同目标的标准差都“粗暴地”设置为一个固定值，这样又进一步影响了所生成概率密度图的准确程度。因此我们这里将这种通过模糊方式从点标注得到的概率密度图称为“伪”真值标签，这里的形容词“伪”表示其与真正的概率密度图差别较大，难以准确体现实际概率密度图的特点。

为解决上述这些问题，我们采用了一个全新的思路。我们不再依赖从点标注生成不完美的伪标签，而是直接采用数据库所提供的点标注作为（弱）监督信号。为了使监督信号格式匹配，我们从估计得到的概率密度图的基础上又多进行了一步“期望”操作，利用“离散”的概率密度期望值与“离散”的点标注设计损失函数并进行期望值意义上的回归估计，如下图所示。我们将所提损失函数称为贝叶斯损失函数（Bayesian Loss）。

方法

训练过程

所提方法的训练过程示意图如下所示。

令为空间位置随机变量，为标记有人的随机变量。为表示每个目标在图像中的位置分布，我们使用二维高斯分布来近似目标的似然概率分布，即“当出现目标标签为的目标时，他/她出现在位置 ”的条件概率：

（1）

其中代表目标中心标记点的空间位置，代表高斯分布，目标的似然概率随着远离目标中心标记点而减小。在此基础上，给定目标的似然概率分布，我们估计每个像素出现目标的后验概率:

（2）

通过上式的似然概率，我们可以使用贝叶斯公式构建出后验概率场，该概率场定义了空间中每一个位置属于某一个目标的概率（即图3中的后验概率蒙版）。以此为基础，我们可以计算每一个目标的期望计数。比如出现第人的期望可通过下式计算：

（3）
其中是神经网络预测的目标概率密度，也即在位置处出现人的概率密度。公式（3）通过将后验分配概率场和神经网络预测的密度相乘相加，从而得到每一个目标的期望计数。由于 任意给定的目标的理想计数期望应该是1，因此对于该目标的损失函数，即所提出的贝叶斯损失函数 Bayesian Loss 可写为：

（4）

在实验中我们注意到，上述方案中的目标后验概率可以较为准确推断出人（Head Point）与人（Head Point）之间的边界，但是对于远离任何人头标注（Head Point）的位置，却不太理想。这些位置很可能是背景点，然而通过计算却有一定概率会得到一个较高的后验概率。为了解决这个问题，并且保证在背景区域的后验概率场计算准确性，我们将背景类也当成一个特殊的目标（类） ，并且引入一个动态的背景哑元（Dummy Background Point）。利用背景哑元，我们可以“吸收”远离人群的背景区域像素的“贡献”，从而更为准确的计算背景区域的似然及最终的后验概率。

背景哑元的似然概率可按下式计算：（5）

上述背景哑元的机制带来的另一个好处是，我们几乎不需要作出显著的改动，就可以将其统一到上述贝叶斯损失框架中。具体地，依公式（2）和（3），我们可以将目标类别增广为从类别下标0开始，相应即可得到类别的后验概率和期望:

（6）

以此为基础，我们可以很容易得到增强的贝叶斯损失函数 Bayesian Loss+:

（7）

最终我们利用公式7 进行模型优化。

预测过程

在预测阶段，给定输入预测图片，我们希望计算目标数目。我们可以通过卷积神经网络模型得到人群密度估计图。然而不仅目标数目待求，而且预测图片的标记点也是不可得到的，我们无法按照下列方式直接利用公式1-2 计算其后验概率，从而求和每个目标的期望得到总数：

不过，考虑上式特点，我们可以交换式子右端两个求和运算的顺序。由于公式2中的后验对求和恒为1，我们得到

（8）

上式我们得到了一个令人鼓舞的结果。它表明，我们只需要对输入图片的人群密度估计图求和，即可得到该图片的预测目标计数。值得一提的是，尽管我们对训练模块从监督信号到回归机制都作了较大的改动，然而在预测部分，却没有带来任何明显的改变，只需要按照公式8进行简单求和，就能得到我们想要的计数估计值。这点保证了我们方法具有好的可推广性。

实验结果

通过与SOTA方法在四个主流人群计数数据库上的比较，以MAE和MSE为指标的对比结果如下表1所示。

从上述对比实验中可以看出，所提方法在MAE和MSE指标上均取得明显提升。比如，在目前最大的人群计数数据集UCF-QNRF上，所提方法将MAE指标从主流算法的132降低到88.7（降低MAE值44），MSE指标从191降低到155.8（降低MSE值35）。

图5列举了在一组示例图片上基准算法，贝叶斯损失，增强贝叶斯损失函数产生的概率密度图对比。在该例子中，真实计数为1616，传统算法输出计数为1946，误差为330个计数，而所提的贝叶斯损失函数输出计数1686，误差为70个计数；增强版的贝叶斯损失函数输出计数1602，误差仅为14个计数。

文中我们还对似然高斯的标准差以及背景哑元间隔值进行了参数敏感度测试，并且评估了不同骨干网络等因素对性能的影响。详情请见文章4.5节。

结论

在本文中，我们提出了一种新的损失函数，用于点监督下的人群计数估计。传统方法通常使用高斯核将像素的“点注释”转换为“伪”真值密度图，并以此“伪”真值密度图为基础进行概率密度回归。与之不同的是，我们使用了一种更可靠的方式，对每个注释点的计数期望值（而非注释点在密度图上的邻域内所有像素的计数值）进行监督。由于训练过程的监督是以个别离散像素点形式进行，因此仅仅需要“点”标注，而无需全图标注。从而提高了性能。充实的实验证明了我们提出的方法在准确性，鲁棒性和泛化方面的优势。此外，我们的方法更具有一般性，可以很容易地被用来合并其他知识，例如，特定的前景或背景先验，尺度和时间似然以及其他事实，从而得到进一步改进。

本文是ICCV 2019口头展示（Oral）文章。在口头展示和墙报展示环节均受到了不少与会者的关注。其中国际计算机视觉著名学者，美国中佛罗里达大学（UCF）计算机视觉研讨中心主任Mubarak Shah教授（IEEE，AAAS，SPIE，IAPR会士）在提到我们的方法时当面评价到：

“A new crowd counting solution, which is simple and elegant”

对我们的方法给与了充分的肯定。

论文引用信息

Zhiheng Ma, Xing Wei, Xiaopeng Hong, and Gong, Yihong. Bayesian Loss for Crowd Count Estimation with Point Supervision. In Proceedings of the international conference on computer vision, (ICCV-19), pp. 6142-6151, 2019.

BibTex：

@inproceedings{ma2019bayesian, title={Bayesian loss for crowd count estimation with point supervision}, author={Ma, Zhiheng and Wei, Xing and Hong, Xiaopeng and Gong, Yihong}, booktitle={Proceedings of the IEEE International Conference on Computer Vision}, pages={6142--6151}, year={2019} }

全文下载：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Ma_Bayesian_Loss_for_Crowd_Count_Estimation_With_Point_Supervision_ICCV_2019_paper.pdf

代码下载：

https://github.com/ZhihengCV/Bayesian-Crowd-Counting

主要参考文献

[1] Haroon Idrees, Muhmmad Tayyab, Kishan Athrey, Dong Zhang, Somaya Al-Maadeed, Nasir Rajpoot, and Mubarak Shah. Composition loss for counting, density map estimation and localization in dense crowds. In ECCV, 2018.

[2] Xinkun Cao, ZhipengWang, Yanyun Zhao, and Fei Su. Scale aggregation network for accurate and efficient crowd counting. In ECCV, 2018.

[3] Haroon Idrees, Imran Saleemi, Cody Seibert, and Mubarak Shah. Multi-source multi-scale counting in extremely dense crowd images. In CVPR, 2013.

[4] Yingying Zhang, Desen Zhou, Siqin Chen, Shenghua Gao, and Yi Ma. Single-image crowd counting via multi-column convolutional neural network. In CVPR, 2016.

重磅！CVer-人群计数 微信交流群已成立

扫码添加CVer助手，可申请加入CVer-人群计数 微信交流群，目前已汇集50人！涵盖图像、视频人群密度估计等。互相交流，一起进步！

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、TensorFlow和PyTorch等群。

一定要备注：研究方向+地点+学校/公司+昵称（如人群计数+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加群

▲长按关注我们

麻烦给我一个在看！

登录查看更多

相关内容

洪晓鹏

关注 0

洪晓鹏，西安交通大学特聘研究员，博士生导师。西安交通大学青年拔尖人才计划入选者。曾获芬兰奥卢大学Docent（副高、博士生导师）头衔。主要从事智能安全、视频监控、微表情分析等方面的研究工作。已在包括IEEET-PAMI和CVPR等CCFA类学术刊物在内的国际权威期刊和会议上发表文章40余篇。谷歌学术引用逾千次，单篇所载刊物最高影响因子17.73。其中在微表情分析方面的相关工作受到了包括美国《麻省理工技术评论》和英国《每日邮报》在内的国际权威媒体专文报道。曾主持芬兰奥卢市信息技术学会博士后科研基金项目一项，共同主持芬兰科学院ICT2023专题项目一项。曾获国际期刊PatternRecognition（2017）和Neurocomputing（2017）杰出审稿人称号。先后在主流国际会议上举办了三场专题研讨会，并担任过施普林格SIVP期刊的客座编委。个人主页：http://gr.xjtu.edu.cn/web/hongxiaopeng

(ICML 2020 Tutorial)贝叶斯深度学习与概率模型构建，134页ppt

专知会员服务

92+阅读 · 2020年7月30日

近期必读的六篇计算机视觉顶会ECCV 2020【目标检测】相关论文

专知会员服务

59+阅读 · 2020年7月7日

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日