项目名称: 面向RGB-D视频的人体动作识别研究

项目编号: No.61202133

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 计算机科学学科

项目作者: 宋砚

作者单位: 南京理工大学

项目金额: 23万元

中文摘要: 随着视频数据采集技术的飞速发展,监控视频正渗透到人们生活的各个方面,如何自动的理解视频中出现的人的动作是智能视频监控技术中的关键问题。近来,同步采集RGB和深度数据设备的面世,为视频人体动作识别提供了新的契机。本项目将针对现有工作的不足,面向RGB-D视频对人体动作识别的若干关键问题展开研究。首先,将基于人体的三维表面研究深度视频底层特征,作为RGB特征的重要补充。然后,将结合RGB和深度两个通道信息,并充分利用局部特征的时空位置信息,对视频中的动作进行描述和表征。具体的,将研究基于双通道稀疏编码的时空金字塔的动作描述方法,以及一种4维时空轨迹的生成和描述方法。最后,将研究基于多通道特征的局部分类器的动作识别方法,以解决同类动作类内差异大的问题。本项目将在理论上推动视频人体动作识别研究的发展,并在实际中为智能视频监控系统的应用提供关键技术。

中文关键词: 彩色深度;人体动作识别;稀疏表示;特征融合;

英文摘要: As the development of the video capturing technology, surveillance video is infiltrating into human's life. How to automatically understand human's activity in videos is the key issue of the intelligent surveillance technology. Recently, the availability of the device which captures RGB and depth data synchronously provides new opportunity for human action recognition in videos. This project is to research into several key issues of human action recognition for RGB-D videos, considering the shortage of the current works. Firstly, we plan to study a depth video feature extraction method based on 3D surface of human body, as an important supplement for RGB features. Then, we plan to describe and represent human actions in videos by combining the information from RGB and depth channels, and by utilizing the spatial-temporal information of local features. Specifically, we plan to propose an action description method based on two-channel sparse coding and spatial-temporal pyramid kernel. Besides, we plan to propose a method for 4D spatial-temporal trajectory generation and description. Finally, we plan to study a human action recognition method based on multi-view local classifiers to solve the problem of huge intra-class variation. This project will theoretically push forward the development of human action recognit

英文关键词: RGB-D;human actoin recognition;sparse representation;feature combination;

成为VIP会员查看完整内容
0

相关内容

TPAMI 2021|VideoDG:首个视频领域泛化模型
专知会员服务
21+阅读 · 2021年12月31日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
29+阅读 · 2021年11月8日
专知会员服务
22+阅读 · 2021年10月9日
专知会员服务
9+阅读 · 2021年6月19日
专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
15+阅读 · 2021年3月26日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
TPAMI 2021|VideoDG:首个视频领域泛化模型
专知
0+阅读 · 2021年12月31日
TPAMI 2019 | 鲁棒RGB-D人脸识别
计算机视觉life
11+阅读 · 2019年6月8日
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
CCCF专题:史元春 | 自然人机交互
中国计算机学会
24+阅读 · 2018年5月18日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
独家 | 光流与行为识别的结合研究
AI科技评论
12+阅读 · 2017年12月29日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2022年4月20日
2D Human Pose Estimation: A Survey
Arxiv
0+阅读 · 2022年4月15日
小贴士
相关VIP内容
TPAMI 2021|VideoDG:首个视频领域泛化模型
专知会员服务
21+阅读 · 2021年12月31日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
29+阅读 · 2021年11月8日
专知会员服务
22+阅读 · 2021年10月9日
专知会员服务
9+阅读 · 2021年6月19日
专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
15+阅读 · 2021年3月26日
3D目标检测进展综述
专知会员服务
193+阅读 · 2020年4月24日
相关资讯
TPAMI 2021|VideoDG:首个视频领域泛化模型
专知
0+阅读 · 2021年12月31日
TPAMI 2019 | 鲁棒RGB-D人脸识别
计算机视觉life
11+阅读 · 2019年6月8日
图卷积在基于骨架的动作识别中的应用
极市平台
24+阅读 · 2019年6月4日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
CCCF专题:史元春 | 自然人机交互
中国计算机学会
24+阅读 · 2018年5月18日
图像检索研究进展:浅层、深层特征及特征融合
中国计算机学会
122+阅读 · 2018年3月26日
独家 | 光流与行为识别的结合研究
AI科技评论
12+阅读 · 2017年12月29日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员