Though research has shown the complementarity of camera- and inertial-based data, datasets which offer both modalities remain scarce. In this paper we introduce WEAR, a multimodal benchmark dataset for both vision- and wearable-based Human Activity Recognition (HAR). The dataset comprises data from 18 participants performing a total of 18 different workout activities with untrimmed inertial (acceleration) and camera (egocentric video) data recorded at 10 different outside locations. WEAR features a diverse set of activities which are low in inter-class similarity and, unlike previous egocentric datasets, not defined by human-object-interactions nor originate from inherently distinct activity categories. Provided benchmark results reveal that single-modality architectures have different strengths and weaknesses in their prediction performance. Further, in light of the recent success of transformer-based video action detection models, we demonstrate their versatility by applying them in a plain fashion using vision, inertial and combined (vision + inertial) features as input. Results show that vision transformers are not only able to produce competitive results using only inertial data, but also can function as an architecture to fuse both modalities by means of simple concatenation, with the multimodal approach being able to produce the highest average mAP, precision and close-to-best F1-scores. Up until now, vision-based transformers have neither been explored in inertial nor in multimodal human activity recognition, making our approach the first to do so. The dataset and code to reproduce experiments is publicly available via: mariusbock.github.io/wear


翻译:尽管研究已经表明相机和惯性数据的互补性,但提供两种模式的数据集仍然很少。本文介绍了WEAR,一种多模态基准数据集,用于视觉和可穿戴式基于人体活动识别(HAR)。该数据集包括来自18名参与者在10个不同的室外场所进行的18种不同的锻炼活动的未修剪惯性(加速度)和相机(自我中心视角视频)数据。WEAR具有多样化的活动,这些活动的类间相似性较低,并且不像以前的自我中心数据集那样仅由人体-物体交互定义,也不来自固有的不同活动类别。所提供的基准结果表明,单模态体系结构在其预测性能方面具有不同的优缺点。此外,考虑到基于转换器的视频动作检测模型的最近成功,我们展示了它们的多功能性,通过使用视觉、惯性和组合(视觉+惯性)特征作为输入来简单地应用它们。结果表明,视觉转换器不仅能够使用仅惯性数据产生具有竞争力的结果,而且还可以通过简单的串联作为一种体系结构来融合两种模式,多模态方法能够产生最高平均mAP、精度和接近最佳F1分数。到目前为止,基于视觉的转换器在惯性人体活动识别和多模态领域都未被探索,使我们的方法成为第一个这样做的方法。该数据集和重现实验的代码可通过以下链接公开获取:mariusbock.github.io/wear

0
下载
关闭预览

相关内容

八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
综述 | 激光与视觉融合SLAM
计算机视觉life
18+阅读 · 2020年10月8日
【泡泡汇总】最强 SLAM Datasets 合辑
泡泡机器人SLAM
16+阅读 · 2019年5月27日
【泡泡一分钟】基于运动估计的激光雷达和相机标定方法
泡泡机器人SLAM
25+阅读 · 2019年1月17日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月26日
VIP会员
相关VIP内容
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员