Automatic action identification from video and kinematic data is an important machine learning problem with applications ranging from robotics to smart health. Most existing works focus on identifying coarse actions such as running, climbing, or cutting a vegetable, which have relatively long durations. This is an important limitation for applications that require the identification of subtle motions at high temporal resolution. For example, in stroke recovery, quantifying rehabilitation dose requires differentiating motions with sub-second durations. Our goal is to bridge this gap. To this end, we introduce a large-scale, multimodal dataset, StrokeRehab, as a new action-recognition benchmark that includes subtle short-duration actions labeled at a high temporal resolution. These short-duration actions are called functional primitives, and consist of reaches, transports, repositions, stabilizations, and idles. The dataset consists of high-quality Inertial Measurement Unit sensors and video data of 41 stroke-impaired patients performing activities of daily living like feeding, brushing teeth, etc. We show that current state-of-the-art models based on segmentation produce noisy predictions when applied to these data, which often leads to overcounting of actions. To address this, we propose a novel approach for high-resolution action identification, inspired by speech-recognition techniques, which is based on a sequence-to-sequence model that directly predicts the sequence of actions. This approach outperforms current state-of-the-art methods on the StrokeRehab dataset, as well as on the standard benchmark datasets 50Salads, Breakfast, and Jigsaws.


翻译:视频和运动数据的自动行动识别是一个从机器人到智能健康的应用程序中的重要机器学习问题。 多数现有工作都侧重于识别运行、 攀爬或切削蔬菜等耗时较长的粗略动作。 对于需要高时分辨率识别微妙动作的应用来说,这是一个重要的限制。 例如, 在中风恢复中, 量化恢复剂量需要与亚秒长度的动作区分。 我们的目标是缩小这一差距。 为此, 我们引入一个大型、 多式数据集, StrokeRehab, 作为一种新的行动识别基准, 其中包括以高时间分辨率标定的微妙短期行动。 这些短期行动被称为功能性原始动作, 包括连接、 运输、 重新定位、 稳定性 和闲置。 数据集包括高品质的内脏测量单位传感器和41个中风障碍患者的视频数据。 我们显示, 以分解为主的状态模型在应用高时间分辨率分辨率标定时会产生更响的预言。 这些数据通常以高分辨率排序为基础, 以高分辨率排序为我们所预见的语音排序 。

0
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2021年9月3日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
计算机视觉领域顶会CVPR 2018 接受论文列表
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
5+阅读 · 2020年3月16日
Adversarial Metric Attack for Person Re-identification
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员