项目名称: 视觉语义启发的视频事件理解技术研究

项目编号: No.61201319

项目类型: 青年科学基金项目

立项/批准年度: 2013

项目学科: 电子学与信息系统

项目作者: 邹晓春

作者单位: 西北工业大学

项目金额: 26万元

中文摘要: 视频事件理解指通过分析视频序列,提炼出能够描述视频场景显著内容的语义单元,通过对这些语义单元进行时域、空域及逻辑解析,理解视频中存在感兴趣事件的方法。是计算机视觉研究的高级科学问题之一,也是当前该领域研究的热点,在民用与军事领域,具有广泛的应用前景。不过,由于现有视频描述方法难以准确表达视频图像中真实的视觉感兴趣区域,导致现有视频事件理解技术难以取得良好的效果。本项目拟通过引入眼动跟踪技术,发展出一种新的先进的视觉语义启发的视频事件理解技术。利用眼动跟踪系统,获取人眼注视点运动数据,用这些数据,构建数字眼动模型。再利用数字眼动模型,完善视觉注意力模型。利用视觉注意力模型,提取出图像中最感兴趣的区域,即符合人类感知与思维习惯的特征,以生成视觉语义单词,基于这些视觉单词,建立基于视觉语义单词的视频事件模型,在此模型基础上,完成视频事件理解,从而发展出一种先进的基于视觉语义的视频事件理解新方法。

中文关键词: 眼动跟踪;数字眼动模型;视觉注意力模型;视频事件理解;

英文摘要: Video event understanding referred to an advanced video processing in which unlabeled video sequences are used to extract semantics units that are able to describe saliency area in video scene, and time-domain, spatial-domain and logic analysis of these semantics units are used to recognize event of interest existing in Video. It is a high level science problem in computer vision research. Meanwhile, it is a hot spot of this research area. It has wide application prospect in both civil and military fields. However, due to shortage that existing video representation method can not exactly express region of real visual interest in video image, it is difficult to video event understanding algorithm now available to get good performance. In this project, we try to develop a new advanced video semantics inspired video event understanding method through introducing eye tracking technique. Firstly, we use eye tracking system to acquire eye gaze data. Secondly, we use these gaze data to improve visual attention model. Then features that are corresponding to human perception and thinking are extracted by utilizing this visual attention mode. Further, visual semantics words are generated. Based on these visual semantics words, we build video event model. At last, according to video event model, video event understanding i

英文关键词: Eye Tracking;Digital Eye Movement Model;Visual Attention Model;Video Events Understanding;

成为VIP会员查看完整内容
1

相关内容

从视频到语言: 视频标题生成与描述研究综述
专知会员服务
19+阅读 · 2022年1月8日
【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准
专知会员服务
42+阅读 · 2022年1月6日
专知会员服务
16+阅读 · 2021年4月27日
专知会员服务
69+阅读 · 2021年3月29日
专知会员服务
35+阅读 · 2021年2月20日
Al 技术在快手短视频创作与理解的应用
InfoQ
3+阅读 · 2021年12月16日
图像描述生成研究进展
专知
1+阅读 · 2021年3月29日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
【观点】计算机视觉:历史、现状和发展趋势|胡占义研究员
中国科学院自动化研究所
12+阅读 · 2017年11月21日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Vision-and-Language Pretrained Models: A Survey
Arxiv
3+阅读 · 2022年4月15日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
小贴士
相关VIP内容
相关资讯
Al 技术在快手短视频创作与理解的应用
InfoQ
3+阅读 · 2021年12月16日
图像描述生成研究进展
专知
1+阅读 · 2021年3月29日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
【观点】计算机视觉:历史、现状和发展趋势|胡占义研究员
中国科学院自动化研究所
12+阅读 · 2017年11月21日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员