Automatically describing video, or video captioning, has been widely studied in the multimedia field. This paper proposes a new task of sensor-augmented egocentric-video captioning, a newly constructed dataset for it called MMAC Captions, and a method for the newly proposed task that effectively utilizes multi-modal data of video and motion sensors, or inertial measurement units (IMUs). While conventional video captioning tasks have difficulty in dealing with detailed descriptions of human activities due to the limited view of a fixed camera, egocentric vision has greater potential to be used for generating the finer-grained descriptions of human activities on the basis of a much closer view. In addition, we utilize wearable-sensor data as auxiliary information to mitigate the inherent problems in egocentric vision: motion blur, self-occlusion, and out-of-camera-range activities. We propose a method for effectively utilizing the sensor data in combination with the video data on the basis of an attention mechanism that dynamically determines the modality that requires more attention, taking the contextual information into account. We compared the proposed sensor-fusion method with strong baselines on the MMAC Captions dataset and found that using sensor data as supplementary information to the egocentric-video data was beneficial, and that our proposed method outperformed the strong baselines, demonstrating the effectiveness of the proposed method.


翻译:在多媒体领域,对视频或视频字幕的自动描述进行了广泛研究。本文件提出了一个新的任务,即传感器放大自居中心视频字幕、为其新建的数据集称为MMAC标题,以及新提议的任务方法,即有效利用视频和动作传感器或惯性测量单位的多模式数据。传统视频字幕任务在处理详细描述人类活动方面有困难,原因是固定相机的视野有限,但自我中心视觉更有可能用于制作更精细的人类活动描述,其基础是更近得多的视野。此外,我们利用可磨损传感器数据作为辅助信息,以缓解以自我为中心愿景的固有问题:运动模糊、自我隔离和超摄像头测量单位。我们建议采用一种方法,在关注机制的基础上有效利用传感器数据和视频数据,以动态的方式决定需要更多关注的模式,同时考虑到背景信息。我们将拟议的传感器感光谱化方法与强有力的自我定位基线进行了比较,并用拟议的核心数据模型展示为甚强的甚高的自我感官模型。我们提出的数据基础,即以可靠的自我感光谱模型为基础,将拟议的数据定位模型作为可靠的数据基础,作为我们所找到的可靠数据基础。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
37+阅读 · 2021年4月27日
专知会员服务
44+阅读 · 2020年10月31日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关资讯
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员