1、定义物体(Functional Object)。 首先定义很难,如果定义不清楚,就没法做精确的物体识别。同时,还有很多定义的概念是包容性的,千差万别。只有对这些概念有很好的建模,才能做场景理解。
2、遮挡(Occlusion)。 今天物体检测方法非常非常好了,但遇到遮挡,依然做的不太好。
3、上下文理解。 下图中,两个红框里是什么东西?对于大多数人来讲可能是人,但是机器还没有这个能力去推理出是人。
4、物体跟踪。 下图中,物体的重叠非常严重,人类有很强的跟踪能力,但是如果使用当前最好的跟踪系统,机器也很难做到人类的水平,我们检测方法并没有非常好的推理机制应用到里面。
5、手眼配合。 为什么很多家庭机器人卖不出去?因为现在的机器人做不好手眼配合,它们不能像人类一样能做家务、做饭。
6、精度问题。 不管是做无人车,还是做自动驾驶,在一定程度上要求的精度是非常高的,甚至只有高过现在的标准,人工智能技术才能顺利推广下去。
原文链接:https://baijia.baidu.com/s?id=1591900587771389596&wfr=pc&fr=new_lst