每天一分钟,带你读遍机器人顶级会议文章
标题:Deep Occlusion Reasoning for Multi-Camera Multi-Target Detection
作者:Pierre Baque, Francois Fleuret, Pascal Fua
来源:International Conference on Computer Vision (ICCV 2017)
播音员:格子
编译:王健 周平
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
近年来,单个2D图像的行人检测技术得到很大提高。然而,这一进展很少渗透到多摄像机多人追踪算法中,当场景变得非常拥挤时,其检测性能仍然严重恶化。 在本论文中,我们引入了一个新的架构,结合了卷积神经网络和条件随机场来明确地模拟这些模糊。 其中一个关键要素是高阶CRF术语,模拟潜在的阻塞,并且即使在许多人在场的情况下,我们的方法仍然具有鲁棒性。我们的模型是端到端的训练,证明它在挑战性的场景上优于几种最先进的算法。
图1.在拥挤的场景中进行多相机检测。尽管有7台摄像机具有重叠的视野,但基于早期方法的基线(如RCNN-2D/3D和的POM-CNN),都产生误报,表示为红色矩形,而本文算法没有产生。
追踪方法的一个关键挑战是准确追踪被遮挡的目标或那些与周围物体具有相似外观属性的目标。为了解决这个问题,我们提出了一种递归神经网络(RNN)结构,这种结构可以将多个线索联合在一个时间窗口上。并且可以修正数据关联错误,从封闭状态恢复观察结果。我们通过使用外观,运动,甚至交互来追踪多个目标,从而证明数据驱动方法的稳健性。我们的方法在多个公开数据集,包括具有挑战性的MOT基准测试上都优于以前的方法。
图3.顶行显示在三个测试数据集上的对比结果,使用不同方法的MODA分数(用来计算半径r的函数,如7.1部分所描述)。底行显示了当r = 0.5时,不同方法得到的Precision/Recall值和MODP结果。由于数据集的校准不好或缺少基本事实,有些值不存在。
Abstract
People detection in single 2D images has improved greatly in recent years. However, comparatively little of this progress has percolated into multi-camera multi-people tracking algorithms, whose performance still degrades severely when scenes become very crowded. In this work, we introduce a new architecture that combines Convolutional Neural Nets and Conditional Random Fields to explicitly model those ambiguities. One of its key ingredients are high-order CRF terms that model potential occlusions and give our approach its robustness even when many people are present. Our model is trained end-to-end and we show that it outperforms several state-of-the-art algorithms on challenging scene.
如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号(paopaorobot_slam)。
点击“阅读原文”,即可获取本文下载链接。
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/forums/
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com