每天一分钟,带你读遍机器人顶级会议文章
标题:DAP3D-Net: Where, What and How Actions Occur in Videos?
作者:Li Liu, Yi Zhou, and Ling Shao
来源:ICRA 2017 ( IEEE International Conference on Robotics and Automation )
播音员:水蘸墨
编译:陈诚 周平
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
复杂场景下的活动解析是计算机视觉领域里面一个非常有趣并且十分挑战的话题。
本文介绍了一种全新的基于卷积神经网络和长短期记忆模型的多任务三维深度模型(DAP3D-Net)来有效的对视频进行深度活动学习和分析。特别的,在训练过程中,每个活动片段都被分解成许多小段的连续图像,然后通过一个由神经卷积网络和长短期记忆模型组合的系统来对整个动态活动建模。因此整个活动区域的检测,分类和特性学习都可以同时进行优化。神经网络训练完成以后,我们可以对测试用视频里发生的每个活动进行描述:事件地点,类型以及是如何发生的。
为了对这个系统进行有效的展示,我们也提供了一个可观的合成活动信息的数据集,比如说数据集NASA里面就有二十万个活动片段,它们包括了300种不同活动类型和33种预先定义的活动属性。我们用NASA数据集来作为DAP3D-Net的训练集,并且用我们自己搜集的人类活动理解(HAU)数据集和公开的THUMOS数据集作为交叉验证。
最后的实验结果证明了我们的系统可以准确的从实际视频中识别,定位,分类和描述多个活动。
如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号(paopaorobot_slam)。
回复关键字“0046”,即可获取本文下载链接。
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
商业合作及转载请联系liufuqiang_robot@hotmail.com