加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
本文来自知乎问答,本答案已获作者授权转载,禁止二次转载。
https://www.zhihu.com/question/337856533
用mAP来衡量,只要最终预测的proposal少,mAP算出来就有可能比较高。比如有10个GTBox,只预测了1个proposal,而且这1个还预测对了,那么算出来mAP就会是一个比较高的值。
但是实际应用中,10个目标只预测出1个,这样的性能是比较差的。所以,用mAP衡量目标检测的性能是否科学?
作者:Angzz
https://www.zhihu.com/question/337856533/answer/769453722
不科学,据我之前实习的了解,和公司内一位大神交流了一下,实际的业务场景中大家通常不会选择mAP(0.5-0.95)这种指标来衡量一个detector的性能,一般还是用FPPI、或者相同Recall下比Precision,主要原因是:
1.应用场景中一般0.5的IoU足够了,并不需要过度严格的指标,比如行人检测、人脸检测等等。
2.mAP会被一些涨recall的方法推上去(脑补一下PR曲线),比如用soft-nms,focal loss等方法测试或训出来的模型Recall会很高,mAP相应的通常会涨一丢丢(当然并不是绝对的),但是都是涨的低Precision的区域,低精度区对应用场景来说没用,一般用的时候都是卡高Precision,涨回来的Recall其实并没有什么用。
3.应用的时候会卡单一的阈值,比如0.5,mAP对阈值做了平均,这时候就更不能用了。
所以常常一些涨mAP的方法在行人和人脸上其实并不能涨点,还是要根据指标和实际的应用场景来hack,但是当大家都在一个公开的benchmark上面公平比测,那这个时候用哪个指标就都无所谓,只要统一就好了呀~
-End-
*延伸阅读
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台
觉得有用麻烦给个在看啦~