行为识别(action recognition)目前的难点在哪?

2019 年 2 月 14 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


作者 | 水哥

来源 | 知乎话题“行为识别(action recognition)目前的难点在哪?”

链接 | https://www.zhihu.com/question/264575930/answer/283518590


在Object tracking领域,特征是关键,而且受光照等影响严重。在行为识别领域,主流的趋势是双流网络,行为识别的困难在哪,还有哪些需要但未被解决的问题呢?以下是作者对这个问题的见解,值得思考。


“还有哪些需要被解决的问题”描述其实不准确。


因为我觉得需要被解决的问题远大于已经被解决的问题。


action recognition大概有基于静态图片的,基于视频的,基于skeleton的,我对最后一个不熟,说一说前两个面临的问题和挑战。


下面列举action recognition几宗“罪”:


1 严重依赖物体和场景

在早期的时候物体分类还做的不太好的时候动作火过一段时间,现在我们所用的数据集大多数是在那个时候建立的。里面或多或少会对当时的技术有些妥协,大多数类别是类似跑步,骑马,遛狗滑雪这种。这种数据对于算法也带来了一些导向,一看是这么几个类,跑步和骑马的区别是什么?就是有一匹马呀,好,搞一个horse的detector来区分,遛狗和滑雪呢,看背景是什么场景就ok了呀。因为你这么做了,你涨点就容易。也有一些工作就要基于人体本身来做,但是提升的都不明显,所以算法就越来越偏向用物体和场景来识别。这块的研究就变得很诡异,始终没有切入到“动作”这个东西本身,始终是绕开人的bounding box做事情。这个问题不仅是图片的,在视频中也有。


所以现在的这些成果,看起来很繁荣,实际上差得还挺多,试想加入我们希望action recognition最后成功用在安防上,场景也不会变,也没什么物体来给线索的时候怎么办?有兴趣的同学可以对比一下文献里面像stanford40和MPII这样的库现在精度的区别。


2 光流的问题:长度和语义

光流现在是视频动作里面不可或缺的信息了,计算的问题就不说。它也有一些问题,第一是很难去描述长时间的动作,twostream现在取前后10帧。UCF101里面射箭那个动作,拔箭速度快的一笔,要是你思考一会人生这20帧足够描述吗?这是现在研究的一个着力点。但是还是和上面的数据问题一样,数据里面都是一个动作重复做的话,长时间短时间也每太大区别,没有足够的导向让人们去研究长时间的好处。


光流本身的意义也不是完全明确,大家一直说的都是它能capture motion信息啊什么的,然后前两天有个大姐就提出质疑:光流不会只是掩盖了appearance吧?(On the Integration of Optical Flow and Action Recognition)这篇文章个人觉得很好,观点让人眼前一亮,而且对一个大家都用惯了的东西想得很深。我还没仔细看完,但是感觉她说的真的很有可能是真的,就和你一做你就发现动作识别靠场景,场景识别靠物体一样233333


3 CNN擅长“有什么”,不擅长“做什么”

这个展开说就扯的比较远了。从2012年起,CNN在“有什么”这个问题上一直都很强,这类问题就是例如分类,检测这样的。但是这个架构,这个模型不太适合描述“做什么”,也很难capture类似情感这样的东西。比如你现在给个视频让它判断是不是搞笑视频马上就尿了。类似地,动作里面包含很多“意图”这样的东西目前还是比较难的。好比你只看见兵线上有个鲁班,不看小地图也很难猜到里面有四个小兄弟嘛。其实这一点一定程度上造成了上面的第一点问题,它很擅长获取物体和场景的信息,它自己也会突出自己擅长的部分,投机取巧,把动作识别往物体和场景上压的。


整体来说,这个领域和大多数CV课题一样,做的人很多,想得人很少,是真的还有很长的路要走。


有空补一补参考文献,欢迎持续关注本话题。





*延伸阅读

ECCV 2018|行为识别论文笔记之多纤维网络

AAAI 2018 行为识别论文概览


每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击左下角“阅读原文”立刻申请入群~


觉得有用麻烦给个好看啦~  


登录查看更多
36

相关内容

行为识别的要旨是企业在内部协调和对外交往中应该有一种规范性准则。这种准则具体体现在全体员工上下一致的日常行为中。也就是说,员工们的一招一式的行为举动都应该是一种企业行为,能反映出企业的经营理念和价值取向,而不是独立的随心所欲的个人行为。
专知会员服务
161+阅读 · 2020年4月21日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
如何评价ST-GCN动作识别算法?
极市平台
16+阅读 · 2019年5月14日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
独家 | 光流与行为识别的结合研究
AI科技评论
12+阅读 · 2017年12月29日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
【技术分享】基于双流递归神经网络的人体骨架行为识别
机器学习研究会
5+阅读 · 2017年9月1日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
Multi-Grained Named Entity Recognition
Arxiv
6+阅读 · 2019年6月20日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关资讯
如何评价ST-GCN动作识别算法?
极市平台
16+阅读 · 2019年5月14日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
16+阅读 · 2019年1月30日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
独家 | 光流与行为识别的结合研究
AI科技评论
12+阅读 · 2017年12月29日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
【技术分享】基于双流递归神经网络的人体骨架行为识别
机器学习研究会
5+阅读 · 2017年9月1日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
Top
微信扫码咨询专知VIP会员