行为识别（action recognition）目前的难点在哪？

2019 年 2 月 14 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

作者 | 水哥

来源 | 知乎话题“行为识别（action recognition）目前的难点在哪？”

链接 | https://www.zhihu.com/question/264575930/answer/283518590

在Object tracking领域，特征是关键，而且受光照等影响严重。在行为识别领域，主流的趋势是双流网络，行为识别的困难在哪，还有哪些需要但未被解决的问题呢？以下是作者对这个问题的见解，值得思考。

“还有哪些需要被解决的问题”描述其实不准确。

因为我觉得需要被解决的问题远大于已经被解决的问题。

action recognition大概有基于静态图片的，基于视频的，基于skeleton的，我对最后一个不熟，说一说前两个面临的问题和挑战。

下面列举action recognition几宗“罪”：

1 严重依赖物体和场景

在早期的时候物体分类还做的不太好的时候动作火过一段时间，现在我们所用的数据集大多数是在那个时候建立的。里面或多或少会对当时的技术有些妥协，大多数类别是类似跑步，骑马，遛狗滑雪这种。这种数据对于算法也带来了一些导向，一看是这么几个类，跑步和骑马的区别是什么？就是有一匹马呀，好，搞一个horse的detector来区分，遛狗和滑雪呢，看背景是什么场景就ok了呀。因为你这么做了，你涨点就容易。也有一些工作就要基于人体本身来做，但是提升的都不明显，所以算法就越来越偏向用物体和场景来识别。这块的研究就变得很诡异，始终没有切入到“动作”这个东西本身，始终是绕开人的bounding box做事情。这个问题不仅是图片的，在视频中也有。

所以现在的这些成果，看起来很繁荣，实际上差得还挺多，试想加入我们希望action recognition最后成功用在安防上，场景也不会变，也没什么物体来给线索的时候怎么办？有兴趣的同学可以对比一下文献里面像stanford40和MPII这样的库现在精度的区别。

2 光流的问题：长度和语义

光流现在是视频动作里面不可或缺的信息了，计算的问题就不说。它也有一些问题，第一是很难去描述长时间的动作，twostream现在取前后10帧。UCF101里面射箭那个动作，拔箭速度快的一笔，要是你思考一会人生这20帧足够描述吗？这是现在研究的一个着力点。但是还是和上面的数据问题一样，数据里面都是一个动作重复做的话，长时间短时间也每太大区别，没有足够的导向让人们去研究长时间的好处。

光流本身的意义也不是完全明确，大家一直说的都是它能capture motion信息啊什么的，然后前两天有个大姐就提出质疑：光流不会只是掩盖了appearance吧？（On the Integration of Optical Flow and Action Recognition）这篇文章个人觉得很好，观点让人眼前一亮，而且对一个大家都用惯了的东西想得很深。我还没仔细看完，但是感觉她说的真的很有可能是真的，就和你一做你就发现动作识别靠场景，场景识别靠物体一样233333

3 CNN擅长“有什么”，不擅长“做什么”

这个展开说就扯的比较远了。从2012年起，CNN在“有什么”这个问题上一直都很强，这类问题就是例如分类，检测这样的。但是这个架构，这个模型不太适合描述“做什么”，也很难capture类似情感这样的东西。比如你现在给个视频让它判断是不是搞笑视频马上就尿了。类似地，动作里面包含很多“意图”这样的东西目前还是比较难的。好比你只看见兵线上有个鲁班，不看小地图也很难猜到里面有四个小兄弟嘛。其实这一点一定程度上造成了上面的第一点问题，它很擅长获取物体和场景的信息，它自己也会突出自己擅长的部分，投机取巧，把动作识别往物体和场景上压的。

整体来说，这个领域和大多数CV课题一样，做的人很多，想得人很少，是真的还有很长的路要走。

有空补一补参考文献，欢迎持续关注本话题。

*延伸阅读